言語処理のための機械学習入門 (1)
一章をざっとまとめる。
凸集合と凸関数
凸集合
任意のに対して
(線分の式)を満たす集合
のこと。凸集合は、任意の2点を結ぶ線が集合自身からはみ出さないものをいう。集合にへこみがあると、はみ出してしまう2点が存在する。
凸関数
上に凸な関数では、グラフ上の任意の2点を結ぶ線分は、グラフの下、または同じ高さを通る。
今のところ、「1変数関数 f(x) が上に凸であるとき、という、凸関数であるための2次条件をよく使う。
凸計画問題
目的関数が凸関数であって、かつ実行可能領域(解の存在する領域、制約条件)が凸集合であるときの最適化問題を凸計画問題という。最大点は微分が0になる点を求めるか、最急勾配法やニュートン法などの数値解析で求める。
等式制約付凸計画問題
制約が等式制約であるときは、微分した点が等式を満たすとは限らない。そういうときはラグランジュ乗数λを導入したラグランジュ関数
をxについての偏微分が0で、制約を満たす点が最適解となる。目的関数を等高線で表現して、最適点では制約関数が等高線に接してなければならないという説明が分りやすかった。
連続確率変数
連続変数は離散変数とは違い、をとるような確率は0に近い。そのため、確率として意味を持たせるために、ある幅での確率の密度を考える。ある幅が連続確率分布で、どの程度の確率の密度になるかということを確率密度関数を用いて計算する。
ディリクレ分布
,
であるような
に対して確率を与える分布。この条件は多項分布のパラメータとなる条件と同一なので、多項分布のパラメータの確率分布を表すのによく使われる。ガンマ関数を分かっていないので、後から詳しく勉強したい。
最尤推定
尤度はデータの生成確率。
上記の式で尤度が表されるとき、積の形だと扱いにくいので log をとって和の形で表すことがある。この時のを対数尤度と呼び、対数尤度を最大化するようにパラメータを決定するのが最尤推定。与えられた式の形で最もデータにフィットするパラメータが得られるので、例えばデータ内で「熊」という文字の出現確率が0になったりするが、実際は「熊」が存在するはずの世界ではおかしな結果となる。
MAP推定
最大事後確率推定(maximum a posteriori estimation)。パラメータがどんな値をとりやすいか事前に分かっているとき(事前確率分布、予測分布)、データが与えられたときの(事後確率分布)を最大化するようなパラメータを決定する。
KLダイバージェンス(Kullback-Leibler divergence)
確率分布の異なり具合。同じ事象空間の確率分布 P, Q が与えられたとき、PからみたQのKLダイバージェンスは
で表される。単語の意味的な遠さを測ったりするときに使える。朱鷺の杜に、最尤推定は分布との距離をKullback-Leiblerダイバージェンスを測ったとき、真の分布に最も近いモデルの分布を見つけているといえると記載されている。
http://ibisforest.org/index.php?%E6%9C%80%E5%B0%A4%E6%8E%A8%E5%AE%9A
まとめ
基礎の無い私にとって、黄色い本の難しさに泣けたので、この1章は涙が出る程丁寧に解説してくれて分かり易かった。2章は軽く読み流して、3章を読む。