言語処理のための機械学習入門 (1) - ミントフレーバー緑茶

一章をざっとまとめる。

凸集合と凸関数

凸集合

任意の $t \in [0,1]$ に対して $tx^{(1)}+(1-t)x^{(2)} \in A$ (線分の式)を満たす集合 $A$ のこと。凸集合は、任意の２点を結ぶ線が集合自身からはみ出さないものをいう。集合にへこみがあると、はみ出してしまう２点が存在する。

凸関数

上に凸な関数では、グラフ上の任意の２点を結ぶ線分は、グラフの下、または同じ高さを通る。

$f(tx^{(1)} + (1-t)x^{(2)}) \ge tf(x^{(1)}) + (1-t)f(x^{(2)})$

今のところ、「１変数関数 f(x) が上に凸であるとき、 $f^{''}(x) \ge 0$ という、凸関数であるための２次条件をよく使う。

凸計画問題

目的関数が凸関数であって、かつ実行可能領域(解の存在する領域、制約条件)が凸集合であるときの最適化問題を凸計画問題という。最大点は微分が０になる点を求めるか、最急勾配法やニュートン法などの数値解析で求める。

等式制約付凸計画問題

制約が等式制約であるときは、微分した点が等式を満たすとは限らない。そういうときはラグランジュ乗数λを導入したラグランジュ関数

$L(x,\lambda) = f(x) + \lambda g(x)$

をxについての偏微分が０で、制約を満たす点が最適解となる。目的関数を等高線で表現して、最適点では制約関数が等高線に接してなければならないという説明が分りやすかった。

連続確率変数

連続変数は離散変数とは違い、 $x = 170.0000...$ をとるような確率は０に近い。そのため、確率として意味を持たせるために、ある幅での確率の密度を考える。ある幅が連続確率分布で、どの程度の確率の密度になるかということを確率密度関数を用いて計算する。

ディリクレ分布

$x_i \ge 0$ , $\sum_i x_i = 1$ であるような $x$ に対して確率を与える分布。この条件は多項分布のパラメータとなる条件と同一なので、多項分布のパラメータの確率分布を表すのによく使われる。ガンマ関数を分かっていないので、後から詳しく勉強したい。

最尤推定

尤度 $P(D)$ はデータの生成確率。

$P(D)=\prod_{x^{(i)} \in D}p(x^{(i)})$

上記の式で尤度が表されるとき、積の形だと扱いにくいので log をとって和の形で表すことがある。この時の $log P(D)$ を対数尤度と呼び、対数尤度を最大化するようにパラメータを決定するのが最尤推定。与えられた式の形で最もデータにフィットするパラメータが得られるので、例えばデータ内で「熊」という文字の出現確率が０になったりするが、実際は「熊」が存在するはずの世界ではおかしな結果となる。