確率の話(1) -確率入門-
確率分布(probability distribution)というのは
ある事象(event)をつっこむと
その事象がどの位の確率で起きるのか?
を教えてくれる関数と考えられます。
事象はなんでもいいのですが
今回は
のふたつの事象を考えます。
このとき確率分布は
P(e1) = 0.2
P(e2) = 0.8
といった形になります。
ここで確率分布P()は
- c1: 全部の事象の確率を足したら1になる
- c2: 個々の事象の確率は0以上になる
という制約を満たしている必要があります。
この例だと
P(e1) + P(e2) = 0.2 + 0.8 = 1.0 (c1を満たす)
P(e1) = 0.2 >= 0.0
P(e2) = 0.8 >= 0.0 (c2を満たす)
となっていて、きちんと確率分布の条件を満たして
いることがわかります。
ここで例に挙げたような
2つの事象しか取らない確率分布を
ベルヌーイ分布(Bernoulli Distribution)といいます。
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- -
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
さて、ベルヌーイ分布は
人々がどのくらいの確率でラブプラスを購入したのかを
教えてくれるのですが
ここで出てきた
P(e1) = 0.2
や
P(e2) = 0.8
などの値はどうやって決めたのでしょうか?
問題を整理しましょう。
われわれが知りたいのは
「ラブプラスを買った確率の値μ」
です。
買わなかった確率を知る必要はありません。
なぜなら、
全確率の和が1であるという制約があるため
1-μで買わなかった確率が得られるからです。
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- -
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
さてさて、μの値を知るにはどうしたらよいでしょう?
実際に日本中の人々に対して
ラブプラス買いましたか?とは聞けないので(いろんな意味で)
ここは5人のエンジニアに
購入したか否かをアンケートします。
すると
4人が「買ってない」
1人が「買った」
という結果になりました。
なので直感的には
μ = 1 / (1 + 4) = 0.2
でいいような気がします。
実際にこれでOKなのですが
何故、これで良いかは今回はスルーします。(ごめんね)
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- -
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
ここで得られたμを用いると
確率分布P()は次のようになります。
P(x) = μ (x = e1)
P(x) = 1-μ (x = e2)
ここでは理解しやすさのため
e1やe2など場合わけをしてみましたが
これだと今後の計算に支障が出るので
ちょっと書き換えて1つの式にしてみます。
e1=1,e2=0とすれば
P(x) = μ^x * (1-μ)^(1-x)
という一本の式になります。
(具体的にxに1と0を入れてみてください)
これで確率分布P(x)が無事に1つの式で表現できました。
これがベルヌーイ分布の一般形になります。
Bern(x) = μ^x * (1-μ)^(1-x)
ベルヌーイ分布はP()のかわりにBern()と書いたりします。
Bern()がでてきたらベルヌーイ分布と思えばOKです。
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- -
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
ここまでの計算でμが得られたので
ベルヌーイ分布Bern()は
無事、確率値を返せるようになりました。
ではμが異なる値だったらどうなるでしょうか?
当然Bern()は異なる確率分布になります。
例:
μ=0.3
P(x=1) = 0.3, P(x=0) = 0.7
μ=0.6
P(x=1) = 0.6, P(x=0) = 0.4
つまりμが分布の形状を決定するパラメータになっているといえます。
この点を特に強調したい場合に
Bern(x|μ) = μ^x * (1-μ)^(1-x)
と書いたりすることがあります。
Bern(x|μ)という記法で
「パラメータμが与えられたもとでの、xに関するベルヌーイ分布」
をあらわします。
このように
分布の形状が
あるパラメータによって決定される確率分布を
パラメトリック(parametric)な確率分布といいます。
今回のポイントはここです。
決してラブプラスを買うとか買わないとかが
ポイントではないので注意してください。
ではまた。