【E資格】応用数学

1. 線形代数

 機械学習・深層学習を行うにあたり、行列に関する知識は不可欠。実装の観点ではライブラリが充実しているため、全ての計算を追える能力がある必要はない。ただし、「新しいアイデアを実装したい」、「論文にはこのように記載されているけど、この影響をとったらどうなるのだろう」などより良いものを求める際には避けて通れない知識となる。高校・大学で一度線形代数に関する勉強をしていても忘れていることは多い(2×2の行列式は覚えているけど、3×3の行列式を忘れているなど)ので再度確認・定着を兼ねて以下にまとめる。

固有値・固有ベクトル・固有値分解

行列を扱う際に、よく出てくるのが固有値分解である。正方行列Aと、Aに対する固有ベクトルを並べた行列をVとした際に

$$ A = V\Lambda V^{-1}$$

のように変形することである。なぜわざわざ変形するのかというと、行列の累乗を考えた際に、

$$ A\cdot A = V\Lambda V^{-1}V\Lambda V^{-1} = V \Lambda^2 V^{-1} $$

となるためである。Λは対角行列のため、演算は簡単であり、A・Aを単純に計算するより早い。

細かい求め方については割愛するが、正方行列Aに対して

$$A\vec{x} = \lambda\vec{x}$$

を満たすxとλをそれぞれ、行列Aに対する固有ベクトル固有値という。

特異値分解

正方行列以外では特異値分解を行うことで、固有値分解と同様なことが可能。イメージとしては、非正方行列Mに対して、MMTとMTMは正方行列となる。それぞれの特異ベクトル(正方行列の場合の固有ベクトル)をU、Vとした場合に

$$M=USV^{-1}$$

と表現することが可能。実際には非正方行列を取り扱うことの方が多いので、頭にいれておいた方がよい(画像も縦と横でピクセル数が違うものの方が多いですよね)。

2. 確率・統計

 統計学に関する知識も機械学習・深層学習を扱う上では必須。画像のラベルを決定する上でも、一番確率の高いラベルを出力としています。人間でもAにもBにも見えるけど、Aだろうという判断を生活の中で無数にしているはず。世の中の判断は全て統計に基づいているといっても過言ではないはず。人間では過去の経験や知識などをベースとして「自分なりの判断基準」を築いてますが、これを数式で表しているのが確率・統計である。ここでは基本的な確率の考え方や用語についての必要な知識をまとめる。

条件付き確率・ベイズ則

 条件付き確率とは、ある事象X=xが与えられた下で、Y=yとなる確率を指す。例えば雨が降っている条件下で交通事故に遭う確率である。何を前提の条件にとるかで結果は異なる。前述の例では、交通事故にあったという条件下で、その日が雨である確率とは別になるはずである。
 条件付き確率は以下の式で表せる。

$$ P(Y=y|X=x) = \frac{P(Y=y, X=x)}{P(X=x)}$$

上の式は、ベイズ則と呼ばれる。確率を扱う上で、状態付き確率は自然に用いられるため、最低限定義は頭に入れる必要がある。

確率分布

 以下にいくつかの確率分布を示す。事象に応じて適した確率分布も異なるため、状況に適した分布を調べた方がよい。

  • ベルヌーイ分布(例:コイントス):
    $$P(x|\mu)=\mu^x(1-\mu)^{1-x}$$
  • マルチヌーイ(カテゴリカル)分布(例:サイコロ)
  • 二項分布(ベルヌーイ分布の多施行版):
    $$P(x|\lambda,n)=\frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x}$$
  • ガウス分布(釣鐘型の連続分布):
    $$N(x;\mu,\sigma^2)=\sqrt{\frac{1}{2\pi\sigma^2}}\exp(-(x-\mu)^2/(2\sigma^2))$$

用語

以下では、機械学習・深層学習を扱う上でよく出る用語や定義について簡潔にまとめる。

  • 分散:データの散らばり具合
    $$ \begin{eqnarray} Var(f) &=& E((f_{(X=x)}-E_{(f)})^2)\\
    &=&E(f^2_{(X=x)})=(E_{(f)})^2 \end{eqnarray}$$
  • 共分散:2つのデータ系列の傾向の違い
    $$ \begin{eqnarray} Cov(f,g) &=& E((f_{(X=x)}-E(f))(g_{(Y=y)}-E(g)))\\
    &=& E(fg)-E(f)E(g) \end{eqnarray}$$
  • 標準偏差:分散の平方根(分散は2乗しているので元のデータと単位が異なる)
    $$\sigma = \sqrt{Var(f)}$$
  • 標本平均:母集団から取り出した標本の平均値
    • 一致性:サンプル数を増やすと母集団に一致
    • 不偏性:サンプル数によらず、期待値は母集団の値と同様
  • 標本分散:一致性は満たすが、不偏性は満たさない(ばらつきは小さくなる)
    $$\hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2$$
  • 不偏分散:サンプル数をn-1個として計算した分散(平均は決まっている→自由度が一つ減るという考えに基づく)ただし、サンプル数が十分に大きければ標本分散とあまり変わらない。
    $$s^2=\frac{1}{n-1}\sum^n_{i-1}(x_i-\bar{x})^2$$

3. 情報理論

 情報量を考えるにあたり、考慮すべき点は2つ。(1)発生する確率が低いほど、情報量が多い。(2)情報は足し合わすことができる。

この2つを考慮した上で、自己情報量

$$I(x) = \log(P(x)) = log(W(x)) $$

と表記できる。自己情報量に対して、どれだけ情報を得られるかを表す指標としてシャノンエントロピーが用いられる。

$$ H(x) = E(I(x)) = -\sum (P(x)\log(P(x))) $$

ある確率分布P(x)に対するシャノンエントロピーの頂点は、もっとも偏りのない部分を指す。

情報量に関する指標として、同じ事象・確率変数における異なる確率分布P,Qの違いを表すカルバック・ライブラーダイバージェンス(DKL)がある。

$$ D_{KL}(P||Q) = E_{x\sim P}\left[\log\frac{P(x)}{Q(x)}\right] $$

これは、もともと考えていた分布:Q(x)と実際の計測値:P(x)にどれくらい差分があるかがわかる。DKLの一部を取り出したものを交差エントロピーという。

$$\begin{eqnarray} H(P, Q) &=& H(P) + D_{KL}(P||Q) \\
H(P, Q) &=& -E_{x\sim P}\log Q(x)\end{eqnarray}$$

これはQ(x)についての自己情報をP(x)の分布で平均したものである。機械学習(主に分類問題)における予測の誤差として使われることが多い。 機械学習による予測が正解に近いほど、交差エントロピーが小さくなる。

4. まとめ

 ここまで、線形代数・確率・統計・情報理論について簡潔にまとめた。しかし、ここに載せた情報だけでは必要十分ではない。機械学習・深層学習を学ぶ上、さらに応用させて行くためには必要な知識は無数にある。ただし、ここで述べたことが全ての基礎となっていることには変わりはない。焦って応用事項に手を出す前にまずはベースとなる数学・統計をある程度固めることも必要である。

コメント

タイトルとURLをコピーしました