確率の話(1) -確率入門-

確率分布(probability distribution)というのは
ある事象(event)をつっこむと
その事象がどの位の確率で起きるのか?
を教えてくれる関数と考えられます。

事象はなんでもいいのですが
今回は

のふたつの事象を考えます。


このとき確率分布は
P(e1) = 0.2
P(e2) = 0.8

といった形になります。
ここで確率分布P()は

  • c1: 全部の事象の確率を足したら1になる
  • c2: 個々の事象の確率は0以上になる

という制約を満たしている必要があります。

この例だと
P(e1) + P(e2) = 0.2 + 0.8 = 1.0 (c1を満たす)
P(e1) = 0.2 >= 0.0
P(e2) = 0.8 >= 0.0 (c2を満たす)

となっていて、きちんと確率分布の条件を満たして
いることがわかります。

ここで例に挙げたような
2つの事象しか取らない確率分布を
ベルヌーイ分布(Bernoulli Distribution)といいます。

                                                              • -

さて、ベルヌーイ分布は
人々がどのくらいの確率でラブプラスを購入したのかを
教えてくれるのですが

ここで出てきた
P(e1) = 0.2

P(e2) = 0.8
などの値はどうやって決めたのでしょうか?

問題を整理しましょう。
われわれが知りたいのは
ラブプラスを買った確率の値μ」
です。
買わなかった確率を知る必要はありません。

なぜなら、
全確率の和が1であるという制約があるため
1-μで買わなかった確率が得られるからです。

                                                              • -

さてさて、μの値を知るにはどうしたらよいでしょう?

実際に日本中の人々に対して
ラブプラス買いましたか?とは聞けないので(いろんな意味で)
ここは5人のエンジニアに
購入したか否かをアンケートします。

すると
4人が「買ってない」
1人が「買った」
という結果になりました。

なので直感的には
μ = 1 / (1 + 4) = 0.2
でいいような気がします。

実際にこれでOKなのですが
何故、これで良いかは今回はスルーします。(ごめんね)

                                                              • -

ここで得られたμを用いると
確率分布P()は次のようになります。

P(x) = μ (x = e1)
P(x) = 1-μ (x = e2)

ここでは理解しやすさのため
e1やe2など場合わけをしてみましたが
これだと今後の計算に支障が出るので
ちょっと書き換えて1つの式にしてみます。

e1=1,e2=0とすれば
P(x) = μ^x * (1-μ)^(1-x)
という一本の式になります。
(具体的にxに1と0を入れてみてください)

これで確率分布P(x)が無事に1つの式で表現できました。
これがベルヌーイ分布の一般形になります。

Bern(x) = μ^x * (1-μ)^(1-x)

ベルヌーイ分布はP()のかわりにBern()と書いたりします。
Bern()がでてきたらベルヌーイ分布と思えばOKです。

                                                              • -

ここまでの計算でμが得られたので
ベルヌーイ分布Bern()は
無事、確率値を返せるようになりました。

ではμが異なる値だったらどうなるでしょうか?
当然Bern()は異なる確率分布になります。

例:
μ=0.3
P(x=1) = 0.3, P(x=0) = 0.7

μ=0.6
P(x=1) = 0.6, P(x=0) = 0.4

つまりμが分布の形状を決定するパラメータになっているといえます。
この点を特に強調したい場合に

Bern(x|μ) = μ^x * (1-μ)^(1-x)

と書いたりすることがあります。
Bern(x|μ)という記法で
「パラメータμが与えられたもとでの、xに関するベルヌーイ分布」
をあらわします。

このように
分布の形状が
あるパラメータによって決定される確率分布を
パラメトリック(parametric)な確率分布といいます。

今回のポイントはここです。
決してラブプラスを買うとか買わないとかが
ポイントではないので注意してください。

ではまた。