参考資料
レポートの参考
- ラビット・チャレンジレポートおまとめ
- sakaeryutaroさんのまとめ(Zenn)
- ラビット・チャレンジを受講した感想・まとめ(みやざダニエルズのIT備忘録)
- StoneRIeverKSさんのまとめ(qiita)
- hirotoさんのまとめ(mathlog)
第一章 線形代数
1.1, 1.2 スカラーとベクトルの違い, 行列
スカラー
- 普通の数
- +−×÷の演算が可能
- ベクトルに対する係数になれる
ベクトル
- 「大きさ」と「向き」を持つ
- 矢印で図示される
行列
- スカラーを表にしたもの
- ベクトルを並べたもの(ベクトルのベクトル)
1.3, 1.4 行列とベクトルの積, 行列の積
例題)行列とベクトルの積
$$
\left(
\begin{array}{cc}
6 & 4 \\
3 & 5
\end{array}
\right)
\left(
\begin{array}{c}
1 \\
2
\end{array}
\right)
= \left( \begin{array}{c}
6 \times 1 + 4 \times 2 \\
3 \times 1 + 2 \times 2
\end{array}
\right)
= \left( \begin{array}{c}
14 \\
13
\end{array} \right)
$$
例題)行列の積
$$
\left( \begin{array}{cc}
2 & 1 \\
4 & 1
\end{array} \right)
\left( \begin{array}{c}
1 & 3\\
3 & 1
\end{array} \right)
= \left( \begin{array}{c}
2 \times 1 + 1 \times 3 & 2 \times 3 + 1 \times 1\\
4 \times 1 + 1 \times 3 & 4 \times 3 + 1 \times 1
\end{array} \right)
= \left( \begin{array}{c}
5 & 7 \\
7 & 13
\end{array} \right)
$$
1.5 連立1次方程式
- 連立1次方程式は行列を使った形式で表すことが可能。
- 行基本変形は行列の変形と言い換えられる。
(行列を左からかけることで表現できる)
参考
1.6, 1.7 逆行列, 逆行列が存在しない条件
単位行列 (Identity matrix)
単位行列とは、主対角線上の要素がすべて1で、その他の要素がすべて0である正方行列のことを指す。
逆行列 (Inverse matrix)
$A$ を正方行列とし,$I$ を同じ大きさの単位行列とする。このとき,
$$ AA^{-1} = A^{-1}A = I $$
が成り立つような正方行列 $A^{-1}$ が存在するとき,これを $A$ の逆行列 (inverse of the matrix) という。
逆行列は掃き出し法、もしくは 余因子行列 を用いた計算で求められる。
逆行列が存在しない条件
行列式が0である場合は逆行列は存在しない
参考
1.8 固有値と固有ベクトル
$A$ を $n$ 次正方行列とする。このとき,ある $\lambda \in \mathbb{C}$ と列ベクトル $x \in \mathbb{C}^n \setminus {0}$ が存在して,
$$ Ax = \lambda x $$
となるとき,$\lambda$を固有値(eigenvalue)、$x$をその固有値に対する固有ベクトル(eigenvector)という。
参考
2.1 固有値分解
正方行列が固有値、固有ベクトルを持つとき、
$${
A= V \Lambda V^{-1}
\quad
ただし、
\quad
\Lambda = \begin{pmatrix}
\lambda_1 & & \\
&\lambda_2 & \\
& & \ddots
\end{pmatrix}
\quad
V = \begin{pmatrix}
\vec{v_1} & \vec{v_2} & \cdots \\
\end{pmatrix}
}
$$
と変形することを固有値分解という。
参考
3.1 特異値分解
特異値, 特異ベクトル
任意のゼロ行列ではない $m \times n$ 行列𝐴に対して
$$A\nu = \sigma u,\quad A^{\mathrm{T}}u = \sigma\nu$$
を満たすような正の数 $\sigma$ を特異値、$m$ 次元ベクトル $u$を 左特異ベクトル、$n$次元ベクトル$\nu$ を右特異ベクトルと呼ぶ。
ただし、$\sigma$ かつ$u$、$\nu$ はともにゼロベクトルではないことが前提。
特異値分解
特異値分解は、行列 $ A $ を以下のように分解すること。
$$ A = U \Sigma V $$
- $ U $ と $ V $ は直交行列 (その列ベクトルが正規直交基底を形成する行列)
$u_i$, $v_i$ ($U$, $V$の列ベクトル) はそれぞれ左特異ベクトル, 右特異ベクトル - $ \Sigma $ は対角行列で、その対角成分に特異値が大きい順に並べられている。
参考
- 固有値分解、特異値分解のメリット(機械学習の学習 #1)
- 特異値分解の定義,性質,具体例
- Pythonでの固有値分解/特異値分解のやり方を分かりやすく解説
- 【線形代数】特異値分解とは?例題付きで分かりやすく解説!!
第二章 確率・統計
1.1 確率
- 頻度確率(客観確率):発生する頻度
- ベイズ確率(主観確率):信念の度合い
1.2 条件付き確率
ある事象 $X=x$ が与えられた元で、$Y = y$ となる確率
$$
P(Y=y|X=x) = \frac{P(Y=y, X=x)}{P(X=x)}
$$
1.3 独立な事象の同時確率
お互いの発生には因果関係のない(独立な)事象 $X = x$ と事象 $Y = y$ が同時に発生する確率
$$
P(Y=y|X=x) = P(X=x)P(Y=y) = P(Y=y, X=x)
$$
参考
2.1 ベイズ則
一般的に事象$X=x$と事象 $Y=y$ に対して...
$$
P(X=x|Y=y)P(Y=y) = P(Y=y|X=x)P(X=x)
$$
参考
2.2 確率変数と確率分布
- 確率変数:ある変数の値をとる確率が存在する変数のこと
- 確率分布:確率変数がとる値とその値をとる確率の対応の様子を表したもの
参考
3.1 期待値
確率変数がとる値とその値をとる確率の積を全て足し合わせたもので、確率変数の平均値を表す。
確率変数が離散値の場合
$$ E(f) = \sum_{k=1}^{n}P(X = x_k)f(X = x_k)$$
確率変数が連続値の場合
$$ E(f) = \int P(X = x)f(X = x)dx $$
参考
3.2 分散と共分散
分散
- データの散らばり具合を表す。
- 「確率変数のとり得る値と期待値(平均値)の差の2乗」と「確率」との積を、全て足し合わせたもの。つまり、データの各々の値が,期待値からどれだけズレているのか平均したものc
共分散
- 2つのデータの関係の強さを表す指標の一つ
- 正の相関がある場合には正、負の相関がある場合には負になる
- 相関がない場合には0
参考
3.3 分散と標準偏差
分散の正の平方根のこと
$$\sigma = \sqrt{Var(f)} = \sqrt{E((f_{(X=x)} - E_{(f)})^2)} $$
参考
4.1, 4.2 様々な確率分布I, II
ベルヌーイ分布
- コイントスのイメージ、0か1(2通り)出る時の分布。
$$P(x|\mu) = \mu^x(1-\mu)^{1-x}$$
マルチヌーイ分布(カテゴリカル)分布
- ベルヌーイ分布を多次元に拡張し、1回試行した時の分布。
- さいころを転がすイメージ
- 各面の出る割合が等しくなくとも扱える
$$
P(x|\lambda) = \prod_{i=1}^{K} \lambda_i^{x_i}
$$
二項分布
- ベルヌーイ分布の多試行版
- ベルヌーイ試行(何かを行ったときに起こる結果が2つしかない試行のこと)をn回行って、成功する回数が従う確率分布
$$P(x|\lambda, n) = \frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x}$$
ガウス分布
- 釣鐘型の連続分布。正規分布とも呼ばれる
- 正規分布は統計学における検定や推定、モデルの作成など様々な場面で活用される連続型確率分布。
$$
N(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{1}{2\sigma^2}(x-\mu)^2\right)
$$
参考
第三章 情報理論
1.1, 1.2 自己情報量, シャノンエントロピー
自己情報量
確率 $p$ で起こる事象を観測したときに得られる(自己)情報量を $−\log_2p$ bit と定義する。
$$I(x) = -\log(P(x)) = \log(W(x))$$
- 対数の底が2の時、単位はビット(bit)
- 対数の底が $e$ の時、単位は(nat)
シャノンエントロピー
自己情報量の期待値
$$
\begin{aligned}
H(x) &= E(I(x)) \\ &= -E(\log(P(x)) \\ &= -\Sigma(P(x)\log(P(x)))
\end{aligned}
$$
参考
2.1, 2.2 カルバック・ライブラーダイバージェンス, 交差エントロピー
カルバック・ライブラーダイバージェンス
- 2つの確率分布の違いを数量化したもの
- ある確率分布$Q$がターゲットの確率分布$P$をどのくらい忠実に近似しているかを表す。
- $P=Q$の場合は0になる。
$$
\begin{aligned}
D_{KL}(P||Q)
&= E_{x〜P}\left[\log{\frac{P(x)}{Q(x)}}\right] \\
&= E_{x〜P}\left( \log(P(x)) - \log(Q(x)) \right) \\
&= E_{x〜P}\left( I(Q(x) - I(P(x)\right) \\
\end{aligned}
$$
交差エントロピー
交差エントロピーは予測された情報量の平均をターゲットの確率分布Pで計算したもの。
予測が完璧であれば、確率分布Pから計算できるエントロピーに等しくなる。
$$H(P,Q) = E_{x〜P}\left[-\log{Q}(x) \right]$$