言語処理のための機械学習入門 (1)

一章をざっとまとめる。

凸集合と凸関数

凸集合

任意の t \in [0,1]に対してtx^{(1)}+(1-t)x^{(2)} \in A(線分の式)を満たす集合 Aのこと。凸集合は、任意の2点を結ぶ線が集合自身からはみ出さないものをいう。集合にへこみがあると、はみ出してしまう2点が存在する。

凸関数

上に凸な関数では、グラフ上の任意の2点を結ぶ線分は、グラフの下、または同じ高さを通る。

f(tx^{(1)} + (1-t)x^{(2)}) \ge tf(x^{(1)}) + (1-t)f(x^{(2)})

今のところ、「1変数関数 f(x) が上に凸であるとき、f^{''}(x) \ge 0という、凸関数であるための2次条件をよく使う。

凸計画問題

目的関数が凸関数であって、かつ実行可能領域(解の存在する領域、制約条件)が凸集合であるときの最適化問題を凸計画問題という。最大点は微分が0になる点を求めるか、最急勾配法やニュートン法などの数値解析で求める。

等式制約付凸計画問題

制約が等式制約であるときは、微分した点が等式を満たすとは限らない。そういうときはラグランジュ乗数λを導入したラグランジュ関数

L(x,\lambda) = f(x) + \lambda g(x)

をxについての偏微分が0で、制約を満たす点が最適解となる。目的関数を等高線で表現して、最適点では制約関数が等高線に接してなければならないという説明が分りやすかった。

連続確率変数

連続変数は離散変数とは違い、x = 170.0000...をとるような確率は0に近い。そのため、確率として意味を持たせるために、ある幅での確率の密度を考える。ある幅が連続確率分布で、どの程度の確率の密度になるかということを確率密度関数を用いて計算する。

ディリクレ分布

x_i \ge 0,\sum_i x_i = 1であるようなxに対して確率を与える分布。この条件は多項分布のパラメータとなる条件と同一なので、多項分布のパラメータの確率分布を表すのによく使われる。ガンマ関数を分かっていないので、後から詳しく勉強したい。

最尤推定

尤度P(D)はデータの生成確率。

P(D)=\prod_{x^{(i)} \in D}p(x^{(i)})

上記の式で尤度が表されるとき、積の形だと扱いにくいので log をとって和の形で表すことがある。この時のlog P(D)を対数尤度と呼び、対数尤度を最大化するようにパラメータを決定するのが最尤推定。与えられた式の形で最もデータにフィットするパラメータが得られるので、例えばデータ内で「熊」という文字の出現確率が0になったりするが、実際は「熊」が存在するはずの世界ではおかしな結果となる。

MAP推定

最大事後確率推定(maximum a posteriori estimation)。パラメータがどんな値をとりやすいか事前に分かっているとき(事前確率分布、予測分布)、データが与えられたときのP(\theta|D)(事後確率分布)を最大化するようなパラメータを決定する。

エントロピー

情報の乱雑さ。-log P(x) が衝撃度で、その平均をとったもの。

H(P) = \sum_x - P(x)log P(x)

KLダイバージェンス(Kullback-Leibler divergence)

確率分布の異なり具合。同じ事象空間の確率分布 P, Q が与えられたとき、PからみたQのKLダイバージェンス

D_{KL}(P||Q) = \sum_x P(x)log \frac{P(x)}{Q(x)}

で表される。単語の意味的な遠さを測ったりするときに使える。朱鷺の杜に、最尤推定は分布との距離をKullback-Leiblerダイバージェンスを測ったとき、真の分布に最も近いモデルの分布を見つけているといえると記載されている。

http://ibisforest.org/index.php?%E6%9C%80%E5%B0%A4%E6%8E%A8%E5%AE%9A

JSダイバージェンス(Jensen-Shanon divergence)

平均的な確率分布までのKLダイバージェンスの平均。何を言っているのかわから(ry

KLダイバージェンスで分母が0だと、定義できなくなる。異なる文書間で片方にしか出現しない単語があったりするときに不便であるから、JSダイバージェンスが使われることがある。

自己相互情報量(PMI:Pointwise Mutual Information)

PMI(x,y)=log \frac{P(x,y)}{P(x)P(y)}

P(x,y) > P(x)P(y)のとき、x と y が一緒に出現しやすく、PMI は正となる。

まとめ

基礎の無い私にとって、黄色い本の難しさに泣けたので、この1章は涙が出る程丁寧に解説してくれて分かり易かった。2章は軽く読み流して、3章を読む。