カリーナ様でもわかる!確率の話

※このエントリが数学自信ニキの目に止まらないことを切に祈ります。

 

 

数学的確率の定義

数学的確率の定義はかんたんで(対象のパターン数)/(起こりうる全パターン数)です。
ただし「全事象の起こる確率が同様に確からしい」という前提を含みます。
この前提を無視したのがあの有名な「当たるか当たらないかの1/2」です。このネタつまんねえよな。

以降とくに断りがなければ「確率」は数学的確率のことを言っています。

 

定義から次のことが言えます。

Σ(各事象の起こる確率) = 1

Σは総和をとることを表します。

それぞれの事象の起こる確率を合計すると1(=100%)になるということです。
これを利用して、ある事象Aが起こる確率を

1 - (ある事象Aが起こらない確率)

で求めることができます。例として「単発勧誘を100回したとき、1枚以上URが出る確率」は

1 - (100回ともUR以外が出る確率) = 1- (0.99)^100 ≒ 0.63

と求めることができます。(1枚出る確率)+(2枚出る確率)+...+(100枚出る確率)を計算するよりずっと早いです。

 

 期待値

 期待値とは試行の結果得られる数値の平均値のことです。

期待値 = Σ(数値)*(確率)

たとえばサイコロを1回投げたときの期待値は出目と確率をかけたやつを足し合わせるので

1*1/6+2*1/6+3*1/6+4*1/6+5*1/6+6*1/6 = 3.5

といった感じです。ママライブ10n回でママが出る枚数の期待値はn枚です。

 

数学的確率と統計的確率の話

そもそもこのエントリを書こうと思い立ったきっかけなのですが、だいぶ前にカリーナ様がママライブ1000回の結果を記録して表示よりママが少ねえ!詐欺だ!と騒いでいたので、こいつ確率のことわかってねえなとツイイトしたところ、エゴサでツイイトを見つけた本人が突っかかってくる事件がありました。

blockされているのでもう結果を見ることはできませんが、たしか1000回でママ87枚(期待値より13枚少ない)くらいだったと思います。*1

検証結果のツイイトが流れてきたとき、わたしは「ツイてねえな」で済む話だと思ったのですが、騒いでいた原因は彼が数学的確率と統計的確率を混同したことにあります。

 

数学的確率は「サイコロはそれぞれの目が1/6の確率で出る」とか「ママライブを回すと10%の確率でママが出る」とか、ある試行の設計された確率のことを指します。

これに対し統計的確率は「コインを10回投げて6回表が出た」「打率3割」など、ある試行の結果の頻度を規格化した程度の意味しかありません。

一般に両者は一致しません。まあコイン1回投げて確率のとおりって意味わからんし。

そしてこれがいちばん重要なところなのですが、数学的確率が0か1でない限り試行の結果はどうにでもなるので、統計的確率からもとの確率を求めることはできません!!「サイコロを10回投げて一度も6が出なかったから、このサイコロには細工がしてある!」と結論付けることはできないということです。サイコロを10回投げてすべて1が出る確率も、11連でUR11枚引きする確率もゼロではないのです。*2

 

ちなみに後者は(1/100)^11=0.0000000000000000000001です。……指数を使わずに表記できるうちはまだまだですね(グーゴロジスト並の感想)

 

統計的確率からもとの確率を確定することはできないという話をしましたが、めちゃめちゃ試行を重ねることである程度推定することはできます。

ある試行の統計的確率は、試行回数を重ねるにつれ数学的確率に近づいていくという性質があります。「確率は収束する」というやつです。

統計的確率の分布と試行回数による誤差をつけてようやく「この試行の数学的確率はこれくらいで、信頼性はこれくらい」というestimationができます。

 

ママライブ1000回の話

とりあえずこれを御覧ください。横軸はママライブ1000回で出るURの数、縦軸は確率です。

f:id:hgex:20180316231316p:plain

60≦n≦140だけフォーカスするとこんな感じです。

f:id:hgex:20180316231357p:plain

先の曲線は一見連続に見えますが、nはURを引いた枚数なので、nが整数のときのみ値を持っています。

期待値であるn=100を中心に分布していますが、ピーク値もせいぜい0.0420です。ママライブ1000回で(URの枚数が)確率通りの結果になる確率はたったの4.2%なのです。SRも含めれば、ほんとうに確率通りになる人はまあいないでしょう。

 

こいつを0≦n≦1000の領域で長方形近似による積分をすると面積がざっくり1となり、任意の領域を同様に積分することで、その領域が全体の何%を占めているかを知ることができます。

で、カリーナ様の試行回数ですが、記憶によればママライブ1000回でママが87枚なので、期待値との差は-13%です。87≦n≦113の領域で積分すると0.846なので、期待値から13%以上ブレる確率は 1 - 0.846 = 0.154 ということになります。妥当~!

 

おまけ

0≦n≦87の領域で積分した値は0.0679なので、カリーナ様の結果は下位6.8%になります。1000人が同じチャレンジをしたとき68番目に運が悪い結果になったと思ってください。ドンマイ。

 

おまけその2:ボックス勧誘の話

箱の中には200枚の部員がいて、うちURは2枚入っています。どれくらい箱を開ければURがお迎えできるものなのでしょうか。計算しました。

f:id:hgex:20180316002937p:plain

それぞれ

n連回した時点で引いたURの枚数が1枚である確率

n連回した時点で引いたURの枚数が2枚である確率

n連回した時点で引いたURの枚数の期待値

です。後半になると2枚目が出てくるので1枚引きの確率(図中緑色)は下がります。

計算せずとも直感でわかる気もしますが、赤線は勾配1/100の直線になります。100連までにURが引ければ期待値を上回るのでリセットしたほうがお得ということになります。

 

誕生日限定ボックスなら底まで回せば必ず限定URをお迎えできますが、学年のほうはさらに1/3の抽選があるので見ている感じかなり闇が深いですね。

n枚URを引くまでに推しが出ている確率は 1 - (2/3)^n です。6枚引いてようやく9割を越える計算になります。

ほのふるさんがキャスでことごとく幼馴染ガードに阻まれている中、追課金を煽るコメント欄を見て鬼の集落に迷い込んだかと思いました。結果的にほのふるさんは追課金の末に穂乃果ちゃんをお迎えできて、研究室でキャスを観ていたわたしは初めて人の勝利にガッツポーズをしたわけですが、興奮冷めやらぬうちに「ソレ見たかどうだおれの言う通りにしてよかっただろう」と誇りだした連中に「結果論でデカい顔をするな!!!!」とブチ切れたのを覚えています。でもほんとよかったね……。

 

おまけその3:2σ

見積もりの2σの話もしたかったけど気力がなくなりました。σは先程の山なりの曲線を正規分布に近似したときの横幅に相当するパラメータで、(一般的な定義ならば)スコアの期待値μについてμ±2σの範囲が全体の95.45%を占めています。2σの壁は高い。

μ-σ~μ+σの範囲なら全体の68.27%です。

*1:リプライ2回フルに使って説明してその場は矛を収めてもらったのですが、第2ウェーブで巻き添えを食らってblockされました。おれは関係ない。おれは関係ないんだ。

*2:まあ回して出なければ「排出確率が1ではない」ことくらいはわかりますし、1枚でも出れば「排出確率が0でない」こともわかります。