確率の話(2) -最尤推定の準備-

今回と次回で最尤推定のお話をします。
しかし、その前に前回の復習をしましょう。

e1: ラブプラスを買った
e2: ラブプラスを買っていない

のような二択の事象を扱うには
ベルヌーイ分布を使えばよいのでした。

ベルヌーイ分布は
xという変数(e1をx=1、e2をx=0であらわします)と
μ(e1の起きる確率)というパラメータを使うと

Bern(x|μ) = μ^x * (1-μ)^(1-x)
という式で表すことができて

例えばμ=0.2のとき、
ラブプラスを買った確率は
Bern(x=1|μ=0.3) = 0.3
というようにして求めることができるのでした。

- - - - -

さて今回は
ベルヌーイ分布のパラメータμ
について掘り下げていきます。

前回はμの値を得るのに
エンジニア5人を捕まえてアンケートをとり
5人中1人がラブプラスを購入していたので
μ=0.2
と結論付けたのでした。

はたしてこのμ=0.2というのは
妥当な値でしょうか？
ほかにもっと良い値がないと言えるでしょうか？

- - - - -

この問題を解決するには
μを求めるのに使ったデータの集まりというのが
どの位の確率で起きるのか？
という情報を使えばよいのです。

このデータの集まりというのは
実際、起こっている事象なわけですから
ベルヌーイ分布につっこんだら
高い確率を返してくれるはずです。

早速計算してみましょう！

- - - - -

エンジニアCがラブプラスを購入していて
エンジニアA、B、D、Eが購入していないとすると

となります。
今回のアンケートでは、この5つの事象が起こっています。
5人のエンジニアはそれぞれ違うxの値を持つので
あえて区別するためにx1,x2,...などと表記しました。

この5つの事象をひとまとめにした事象
D = {x1,x2,x3,x4,x5}
の確率を知りたいのですが
これは単純に5つの確率を掛け合わせればOKです。
このような同時に起きる確率を
同時確率(joint probability)と呼び、
同時確率を返す関数を
同時分布(joint distribution)と呼びます。

P({x1,x2,x3,x4,x5}|μ=0.2)
= 0.8 * 0.8 * 0.2 * 0.8 * 0.8
= 0.2 * 0.8^4
= 0.08192

がDの同時確率です。

では、もしμ=0.5だったらどうでしょう。

P({x1,x2,x3,x4,x5}|μ=0.5)
= 0.5 * 0.5 * 0.5 * 0.5 * 0.5
= 0.5^5
= 0.03125

となりました。
μ=0.1だと

P({x1,x2,x3,x4,x5}|μ=0.1)
= 0.9 * 0.9 * 0.1 * 0.9 * 0.9
= 0.1 * 0.9^4
= 0.06561

です。
どうやらμ=0.2の場合が最も確率が高いといえそうです。
(納得できない人は、もっと色々なμを入れてみましょう)

- - - - -

さてアンケートで得られたデータの集まりDの起こる
同時確率P(D|μ)を計算することで
μ=0.2が妥当そうだということはわかったのですが

今回のやり方というのは
いろんなμを入れてみて同時確率を調べないといけないので
大変ですし
μは0から1の間の任意の実数をとれるので
すべてのμについて同時確率を調べ尽くすことができません。
なので
本当にμ=0.2が最適なの？
といわれると困ってしまいます。

ではどうすればいいでしょうか？
じつは
最尤推定というテクニックを使うと
同時確率P(D|μ)が最も大きい
μを得ることができるのです。
具体的な方法は次回説明します。

今回のポイントは
ベルヌーイ分布のパラメータμは
データ集合Dの同時確率P(D|μ)が最大になるような
μによって与えられる。
ということです。

ではまた。