確率の話(2) -最尤推定の準備-
今回と次回で最尤推定のお話をします。
しかし、その前に前回の復習をしましょう。
のような二択の事象を扱うには
ベルヌーイ分布を使えばよいのでした。
ベルヌーイ分布は
xという変数(e1をx=1、e2をx=0であらわします)と
μ(e1の起きる確率)というパラメータを使うと
Bern(x|μ) = μ^x * (1-μ)^(1-x)
という式で表すことができて
例えばμ=0.2のとき、
ラブプラスを買った確率は
Bern(x=1|μ=0.3) = 0.3
というようにして求めることができるのでした。
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- -
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
さて今回は
ベルヌーイ分布のパラメータμ
について掘り下げていきます。
前回はμの値を得るのに
エンジニア5人を捕まえてアンケートをとり
5人中1人がラブプラスを購入していたので
μ=0.2
と結論付けたのでした。
はたしてこのμ=0.2というのは
妥当な値でしょうか?
ほかにもっと良い値がないと言えるでしょうか?
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- -
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
この問題を解決するには
μを求めるのに使ったデータの集まりというのが
どの位の確率で起きるのか?
という情報を使えばよいのです。
このデータの集まりというのは
実際、起こっている事象なわけですから
ベルヌーイ分布につっこんだら
高い確率を返してくれるはずです。
早速計算してみましょう!
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- -
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
エンジニアCがラブプラスを購入していて
エンジニアA、B、D、Eが購入していないとすると
A: Bern(x1=0|μ=0.2) = 0.8
B: Bern(x2=0|μ=0.2) = 0.8
C: Bern(x3=1|μ=0.2) = 0.2
D: Bern(x4=0|μ=0.2) = 0.8
E: Bern(x5=0|μ=0.2) = 0.8
となります。
今回のアンケートでは、この5つの事象が起こっています。
5人のエンジニアはそれぞれ違うxの値を持つので
あえて区別するためにx1,x2,...などと表記しました。
この5つの事象をひとまとめにした事象
D = {x1,x2,x3,x4,x5}
の確率を知りたいのですが
これは単純に5つの確率を掛け合わせればOKです。
このような同時に起きる確率を
同時確率(joint probability)と呼び、
同時確率を返す関数を
同時分布(joint distribution)と呼びます。
P({x1,x2,x3,x4,x5}|μ=0.2)
= 0.8 * 0.8 * 0.2 * 0.8 * 0.8
= 0.2 * 0.8^4
= 0.08192
がDの同時確率です。
では、もしμ=0.5だったらどうでしょう。
P({x1,x2,x3,x4,x5}|μ=0.5)
= 0.5 * 0.5 * 0.5 * 0.5 * 0.5
= 0.5^5
= 0.03125
となりました。
μ=0.1だと
P({x1,x2,x3,x4,x5}|μ=0.1)
= 0.9 * 0.9 * 0.1 * 0.9 * 0.9
= 0.1 * 0.9^4
= 0.06561
です。
どうやらμ=0.2の場合が最も確率が高いといえそうです。
(納得できない人は、もっと色々なμを入れてみましょう)
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- -
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
さてアンケートで得られたデータの集まりDの起こる
同時確率P(D|μ)を計算することで
μ=0.2が妥当そうだということはわかったのですが
今回のやり方というのは
いろんなμを入れてみて同時確率を調べないといけないので
大変ですし
μは0から1の間の任意の実数をとれるので
すべてのμについて同時確率を調べ尽くすことができません。
なので
本当にμ=0.2が最適なの?
といわれると困ってしまいます。
ではどうすればいいでしょうか?
じつは
最尤推定というテクニックを使うと
同時確率P(D|μ)が最も大きい
μを得ることができるのです。
具体的な方法は次回説明します。
今回のポイントは
ベルヌーイ分布のパラメータμは
データ集合Dの同時確率P(D|μ)が最大になるような
μによって与えられる。
ということです。
ではまた。