とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.16~幾何分布~

今回は幾何分布についての紹介です。余談ですが、この前電車で会社に出社しようとしたらいつの間にか会社とは別方向に向かっており、あやうく遅刻しそうになりました。

このように、気づいたら目的地と別方向に向かっていたということが、1年の間にどれくらい起こるのかを調べたりしたら面白そうですね。この前紹介したポアソン分布が使えそうです。

ちなみにポアソン分布の記事では、いきなり超越数の一つである eが導出もなしに出てきました。現在は導出も追記しています。急に出てきた eに戸惑った方もいらっしゃったかと思います。申し訳ありません。

幾何分布とは

独立なベルヌーイ試行を繰り返すとき、はじめて成功するまでの試行回数 Xが従う確率分布のこと。

例えば、成功確率が pにおいて、 k回目で初めて成功する確率 P(X = k)について考えてみます。

条件から、失敗する確率は 1-pです。さらに、1から (k-1)回目までずっと失敗し、 k回目でようやく成功します。

これを式で表すと、

 P(X = k) = (1-p)\times (1-p) \times \dots \times (1-p) \times p

 = (1-p) ^{k-1} \, p

となります。割と単純ですね。

このように成功する回数 Xが従う幾何分布を

 X~Geo(p)

と書きます(ちょっと自信がありません。もしかしたら違う表記で書かれているかもしれませんので、詳しい方がいらっしゃったらお知らせください)。

 Geoは幾何分布の geometric \,\, distributionから来ています。

幾何分布の期待値と分散

期待値

 \displaystyle E[X] = \frac{1}{p}

分散

 \displaystyle V[X] = \frac{1-p}{p ^2}

幾何分布のグラフ

せっかくなので、幾何分布のグラフを作成してみましょう。統計Webに、サイコロを投げて1が初めて出るまでの試行回数を1~10まで順に増やしたグラフがあるので、それを目指します。

いつもPythonだと面白くないので、今回はRを使ってグラフを書いてみました。このRのコードをもとにPythonで書き起こすのもいい訓練になるのではないでしょうか。

# 幾何分布の作成
Geometric <- function(p, k){
    P = (1-p)^(k-1) * p
    return(P)
}

#試行回数を1~10まで
X <- 1:10

#それぞれの試行回数の計算結果を格納
Y <- c()
for(i in 1:10){
   Y[i]  <- Geometric(1/6, i)   
}

# type = "o"で点付きの線を引く
# lwdで線の太さを指定
# tck = 1で1の幅でgridを引く
# colはcolorのこと
png("plot1.png")  # 描画デバイスを開く
plot(X, Y, type = "o", lwd = 3, tck = 1, col = "blue")
dev.off()

Rの#コメントアウトを、<-は代入を意味します。

最初の

Geometric <- function(p, k){
    P = (1-p)^(k-1) * p
    return(P)
}

で関数を定義します。Pythonでいうdefと同じ意味です。引数として受け取るpは1の目がでる確率、nは試行回数です。(1-p)^(k-1) (1-p) ^{k-1}を計算し、最後に pを掛け、計算結果をreturn() で返しています。ちなみに、Rだとreturn文に()が必須です。

X <- 1:10で試行回数を代入しています。イメージとしては配列に近いです。

Y <- c()
for(i in 1:10){
   Y[i]  <- Geometric(1/6, i)   
}

ここでは最初に、それぞれの試行回数の計算結果を代入するベクトルYを作成しています。ベクトルと言っても、配列に近いイメージです。そして、for文で先ほど作った関数を呼び出しながら計算結果を格納しています。

最後にplotでグラフを出力します。plotの前後にあるものは画像として保存するためのものです。

作成したグラフはこちら↓

f:id:kurasher:20200711131336p:plain

統計Webに載っているグラフとおおよそ一緒になりましたね。

コラム:幾何分布の無記憶性

ある事象が発生する確率は、その事象が発生する前の情報の影響を受けない

どういうことかというと、例えば、 n回目でコインの表が出る確率は過去の影響を受けずに独立した結果となるということです。

さらに分かりやすくえば、コインを投げたときに、「さっきは表が出たから、それが影響して次は裏になる確率が高くなる」なんてことはないという意味です。

まとめ

今回は幾何分布でした。以下はまとめです。

用語 意味
幾何分布 はじめて成功するまでの試行回数 Xが従う確率分布のこと
幾何分布の表し方  X~Geo(p)
幾何分布の確率  = (1-p) ^{k-1} \, p
幾何分布の期待値  E[X] = \frac{1}{p}
幾何分布の分散  V[X] = \frac{1-p}{p ^2}
幾何分布の無記憶性 ある事象が発生する確率は、その事象が発生する前の情報の影響を受けない