言語処理の為の機械学習入門をつまみ食い(その1)：パラメータの最尤推定

　最近MLaPP(Machine Learning: a Probabilistic Perspective)の輪講が我がラボで始まったのですが、話が大分抽象的+英語で早くもヤバい空気が流れ始めました(^^;)

そこで、ちょっと機械学習で使う確率系の話を復習する為に、

言語処理のための機械学習入門 (自然言語処理シリーズ)

を読み直そうと思います。この本は二年前から所持しており分からなくなったときにちょくちょく読んでいるのですが、そろそろまとめ的なのを作ろうかと思いここに書くことにしました。

あくまで入門なのですが、簡潔に書いてある＋日本語（超重要！）であるところが素晴らしい。もちろんさらに深層に挑むなら、MLaPPもそうだけどPRML読めって話ですけどね。

そんなこんなでちょびちょびやって行こうと思います。

具体例：コイントスはフェアなのか？

　コイントスに使うコインは表と裏が出る確率が同じだからこそ意味がありますが、ふとイカサマを疑うときがあります。そこで、実際に10回コイントスして調べてみましょう。

コインA : 表, 裏, 表, 裏, 表, 表, 表, 裏, 裏, 裏
コインB : 表, 裏, 裏, 裏, 裏, 表, 裏, 裏, 裏, 裏

すごく大雑把ですが、コインAは表と裏が出る確率はそれぞれ0.5だと考えられ、フェアと言えそうです。逆にコインBは表と裏が出る確率はそれぞれ0.2と0.8、コインへの細工を疑いますね笑

このように、実際に試行したデータを用いることで我々は直感的にコインの表の出る確率（と裏の出る確率）を調べる事が出来ます。今回のテーマである最尤推定法は、すごくシンプルに言えばこのコインの表の出る確率を求める手法です。

コイントスの確率分布の記述(読み飛ばし可)

　コイントスは取り得る値(確率変数X)が表か裏かの二つしかなく、確率θで表が、確率(1-θ)で裏が出ると書けます*1(θは確率分布のパラメータ。 0 < θ < 1)。すなわち確率変数Xが値x(表か裏)をとる確率 $p(X=x;\theta)$ は以下のように書けます。

$p(X=x;\theta) = \delta(x,表)\theta + \delta(x,裏)(1-\theta) \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = \delta(x,表)\theta + (1-\delta(x,表))(1-\theta) \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = \theta^{\delta(x,表)}(1-\theta)^{1-\delta(x,表)}$

ここで $\delta(x,a)$ はデルタ関数と呼ばれ、x=aのときに1を、そうでないときに0を返す関数。

※要するに $p(X=表;\theta) = \theta$ 、 $p(X=裏;\theta) = 1-\theta$ になるってことです。これさえ分かってれば問題ないです。

尤度とは

　さて先ほど $p(X=x;\theta)$ を記述しましたが、これにより実データが生成される確率を記述することが出来ます。ここで、コイントスは一回ごとに結果が独立であり、かつ全てが同一の確率分布に従っている(それぞれの試行の確率を $p(X=x;\theta)$ で書ける)*2ので、実データ $D = [x_1, x_2, ... , x_n$ ]の生成確率 $P(D)$ は

$P(D)=\prod_{i}^{n}p(x_i)$

と書けます。それぞれのコイントスの確率の積になってますね。この実データDの生成確率を尤度と呼びます。通常は積の形だと扱いにくいので、対数を取った値、

$\log P(D) = \log \prod_{i}^{n}p(x_i) \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = \sum_{i}^{n} \log p(x_i)$

を用いることが多く、これを対数尤度と呼びます。

最尤推定

　やっと本題に入れます。最尤推定法とは、尤度が最も大きくなるようにパラメータ(今回はθ)を決定する方法です。対数尤度の方が扱いやすいため、通常は対数尤度を最大化することが多いです。尤度（実際のデータが生成される（起こる）確率）が最も大きくなるようにパラメータを決定することで、パラメータを現実のデータにフィットさせている訳です。

さてコイントスの話に戻ると、コインAのデータ $D_A = [表, 裏, 表, 裏, 表, 表, 表, 裏, 裏, 裏$ ] の対数尤度は

$\log P(D_A) = \sum_{i=1}^{10} \log p(x_i) = 5\log p(表) + 5\log p(裏) = 5(\log\theta + \log(1-\theta))$

これを微分すると

$\displaystyle \frac{d log P(D_A)}{d \theta} = 5( \frac{1}{\theta} - \frac{1}{1-\theta} ) = \frac{5(1-2\theta)}{\theta(1-\theta)}$

となります。直感の通り、このデータにとって最も尤もらしい(※駄洒落ではない)表の出る確率(θ)は0.5となります。

同様にコインBのデータ $D_B =[表, 裏, 裏, 裏, 裏, 表, 裏, 裏, 裏, 裏$ ] についても

$\log P(D_B) = \sum_{i=1}^{10} \log p(x_i) = 2\log p(表) + 8\log p(裏) = 2(\log\theta + 4\log(1-\theta))$

$\displaystyle \frac{d log P(D_B)}{d \theta} = 2( \frac{1}{\theta} - \frac{4}{1-\theta} ) = \frac{2(1-5\theta)}{\theta(1-\theta)}$

となり、これもまた直感の通りθ=0.2となっていることがわかります。非常にシンプルな例ではありますが、最尤推定法でパラメータを求めることが出来ました！

終わりに

　繰り返しになりますが、最尤推定法は実際の観測データにフィットするようにパラメータを決定する方法です。今回の例は非常にシンプルですが、もっと複雑な問題を扱う場合も根本の考えは一緒だと思います。

　ところで、たとえイカサマをしていないコインであっても、10回の試行中偶然にも裏を9回出した場合は最尤推定法でθ=0.1が求まります。実データからはこう求まっても、コインは平等だと思っている我々に取っては少し納得がいきません。θが大体0.5位になりそうだと分かっている場合に、それをθに反映させたいと思うときがあるわけです。こんな場合に用いるのが最大事後確率推定(MAP推定)なのですが、これについてはまたの機会に。

*1:このような確率分布をベルヌーイ分布(Bernoulli distribution)と言う

*2:独立に同一の確率分布に従う(independently, identically distributed)。 i.i.d.としばしば略記される