とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.15~ポアソン分布~

分布のお話第二弾です。今回はポアソン分布ですね。

ポアソン分布とは

ある期間に平均 \lambda回起こる現象が、ある期間に k回起きる確率を表した分布

ポアソン分布(前半)

一旦、 nが十分に大きく、確率 pが非常に小さい場合を考えてみましょう。これを二項分布で表すと、

 P(X = k) = \, _n\, C_k \, p ^k (1-p) ^{n-k}

となります。

ここで、一般化二項定理というものについて考えます。

一般化二項定理の詳細を知りたければ「高校数学の美しい物語」で紹介されている「一般化二項定理とルートなどの近似」というタイトルの記事がありますので、そちらを参照していただければと思います(上の一般化二項定理の太字をクリックすることでその記事に飛べます)。

とはいえ、一般化二項定理について簡単に説明しておきましょう。

コラム:一般化二項定理

 |x| <  1となる複素数 xと任意の複素数 \alphaに対して

 \displaystyle (1 + x) ^{\alpha} = 1 + \alpha x + \frac{\alpha(\alpha - 1)}{2!}x ^2 + \dots

が成り立つ。

また、 |x| \ll 1の時、

 (1 + x) ^{\alpha} \approx 1 + \alpha x

とできる。

これの証明は省略します(高校数学の美しい物語でも簡単に証明が載っています)。

しかし、先人はすごいですね。これを導き出しているのですから。もちろん、これに限らずいろんな定理や式を導き出していますが。

私には高尚すぎて分かりませんが、高校や大学で学んだだけの定理や式がこのように他の定理や式を導くための土台となっていたり、点と点だったものが一本の線でつながったりするのは結構感動を覚えるのかもしれません。もちろん、数学だけに言えることではないと思います。

スポーツであったり、文学であったり、その他の分野でも言えることでしょう。

もしかしたら、対極に位置する学問同士が点を介することで1本の線を形成するかもしれません。それを発見したら言葉にはならない感動を覚えるかもしれませんね。

ポアソン分布(後半)

さて、話を戻しましょう。ポアソン分布(前半)の話では nが十分に大きく、確率 pが非常に小さい場合を考えていました。ということは、

 (1-p) ^{n-k}

という式は、

 (1-p) ^{n-k} = 1 - (n-k)p

 = 1 - np + kp

とできます。加えて、 nが非常に大きく、確率 pが非常に小さいので、 np = 一定の値と考えることが出来ます。
例えば、 nの値が100万で、 p = 0.001としましょう。ここで、 nの値が多少変動( +10 -10など)するぐらいではそこまで npの値はそんなに変わりません。というわけで、上記の np = 一定の値と考えることが出来ます。

というわけで、一定の値を \lambdaとして、

 np = \lambda

としましょう。こう考えることで、ある事象が起きる回数 Xポアソン分布に従うと考えることが出来ます。

ちなみにポアソン分布は X~Po(\lambda)で表します。そして、ある期間に平均 \lambda回起こる現象が k回起こる確率 P(X = k)は、

\displaystyle P(X = k) = \exp(- \lambda) \frac{ \lambda ^k}{k!}

と書けます。

ポアソン分布の式の導出(2020/07/11追記)

ポアソン分布の式を出したのはいいのですが、その式の中でなぜ超越数の一つである eが出てきたかについては一切話していませんでしたね。申し訳ありません。

証明の方法は高校数学の美しい物語の記事から拝借します(分かりやすく書いてます)。

数式が多く出現するため、興味がない人は飛ばしてもらっても構いません。

証明

スタートする式は二項分布の式である、

 _nC_k p ^k (1-p) ^{n-k}

からです。このとき、 np = \lambdaとしていますので、これを使いましょう。そうすると、 \displaystyle p = \frac{\lambda}{n}とできますので、二項分布の式から

与式 \displaystyle =  _nC_k \left( \frac{\lambda}{n} \right) ^k \left(1-\frac{\lambda}{n} \right) ^{n-k}

とできます。

この式で、 n \inftyまで大きくすれば、ポアソン分布の式が出てくるはずですね。つまり、

 \displaystyle \lim_{n \to \infty}   {_n C_k}  \left( \frac{\lambda}{n} \right) ^k \left(1-\frac{\lambda}{n} \right) ^{n-k}

と書けます。ここで、二項分布の式を少し整理します。

 \displaystyle _nC_k \left( \frac{\lambda}{n} \right) ^k \left(1-\frac{\lambda}{n} \right) ^{n-k}

から、

\displaystyle _nC_k = \frac{n!}{(n-k)! k!}

を用いて、

与式 \displaystyle = \frac{n!}{(n-k)! k!} \left( \frac{\lambda}{n} \right) ^k \left(1-\frac{\lambda}{n} \right) ^{n-k}

 \displaystyle = \frac{\lambda ^k}{k!}  \frac{n!}{(n-k)! n ^k}  \left(1-\frac{\lambda}{n} \right) ^{n-k}

 \displaystyle = \frac{\lambda ^k}{k!}  \left(1-\frac{\lambda}{n} \right) ^{n-k} \frac{n!}{(n-k)! n ^k}

とします。


ここで、先に上げた極限を考えてみましょう。

与式 \displaystyle = \lim_{n \to \infty}  \frac{\lambda ^k}{k!}  \left(1-\frac{\lambda}{n} \right) ^{n-k} \frac{n!}{(n-k)! n ^k}

 \displaystyle = \frac{\lambda ^k}{k!} \lim_{n \to \infty}  \left(1-\frac{\lambda}{n} \right) ^{-k} \left(1-\frac{\lambda}{n} \right) ^{n} \frac{n!}{(n-k)! n ^k}

と、ここまで来ました。ここから先では、

\displaystyle \lim_{n \to \infty}  \left(1-\frac{\lambda}{n} \right) ^{-k}

 \displaystyle \lim_{n \to \infty} \frac{n!}{(n-k)! n ^k}

\displaystyle \lim_{n \to \infty} \left(1-\frac{\lambda}{n} \right) ^{n}

の3つを計算する必要があります。順に見ていきましょう。

1. \displaystyle \lim_{n \to \infty}  \left(1-\frac{\lambda}{n} \right) ^{-k}の計算

\displaystyle \lim_{n \to \infty}  \left(1-\frac{\lambda}{n} \right) ^{-k}

 = (1 - 0) ^{-k}

 = 1 ^{-k} = 1

となります。

2.  \displaystyle \lim_{n \to \infty} \frac{n!}{(n-k)! n ^k}の計算

 \displaystyle \lim_{n \to \infty} \frac{n!}{(n-k)! n ^k}

 \displaystyle = \lim_{n \to \infty} \frac{ n (n-1) (n-2) \dots \left\{n - (k+1) \right\} (n-k)! }{(n-k)! n ^k}

 \displaystyle = \lim_{n \to \infty} \frac{ n (n-1) (n-2) \dots \left\{n - (k+1) \right\} }{n ^k}

とできます。ここで、分子は nから n - (k+1)まで k個存在し、分母は n k個存在します。そのため、以下のような計算が可能です。

与式 \displaystyle = \lim_{n \to \infty} \frac{ n (n-1) (n-2) \dots \left\{n - (k+1) \right\}}{n \times n \times n \times \dots \times n}

 \displaystyle = \lim_{n \to \infty} \frac{n}{n} \times \frac{n-1}{n} \times \frac{n-2}{n} \times \dots \times \frac{n-(k+1)}{n}

 \displaystyle = \lim_{n \to \infty} 1 \times \left(1 - \frac{1}{n}\right) \times \left(1 - \frac{2}{n}\right) \times \dots \times \left(1 - \frac{k+1}{n}\right)

 = 1 \times 1 \times \dots \times 1

 = 1

3. \displaystyle \lim_{n \to \infty} \left(1-\frac{\lambda}{n} \right) ^{n}の計算

最後の

\displaystyle \lim_{n \to \infty} \left(1-\frac{\lambda}{n} \right) ^{n}

ですが、

\displaystyle \lim_{n \to \infty} \left(1 + \frac{1}{n} \right) ^{n} = e

(もしくはこちらの式 \displaystyle \lim_{n \to 0} \left(1 + n \right) ^{\frac{1}{n}} = e)

に似ていますね。

この式は重要なので覚えておきましょう。ちなみに私は n \to \infty n \to 0で式がどちらになるか覚えられませんでしたが、括弧の中身は0に、括弧の外は無限大に近づくと覚えることで、 n \to \infty n \to 0で式を間違えることがなくなりました。

さて、話を戻して、

\displaystyle \lim_{n \to \infty} \left(1-\frac{\lambda}{n} \right) ^{n}

をどうすれば、上式に近づけられるかですが、いったんここは

 \displaystyle t = -\frac{\lambda}{n}

としてみましょう。すると、 n \to \inftyから t \to 0となります。また、 \displaystyle n = -\frac{\lambda}{t}とできます。以上から、

\displaystyle \lim_{n \to \infty} \left(1-\frac{\lambda}{n} \right) ^{n}

\displaystyle  = \lim_{t \to 0} \left(1 + t \right) ^{\frac{-\lambda}{t}}

 \displaystyle = \lim_{t \to 0} \left\{ (1 + t ) ^{\frac{1}{t}} \right\} ^{-\lambda}

 = e ^{-\lambda}

と計算できます。

以上の結果から、

 \displaystyle P(X = k) = \frac{\lambda ^k}{k!} \lim_{n \to \infty}  \left(1-\frac{\lambda}{n} \right) ^{-k} \left(1-\frac{\lambda}{n} \right) ^{n} \frac{n!}{(n-k)! n ^k}

 \displaystyle = \frac{\lambda ^k}{k!} \times  1 \times  e ^{-\lambda} \times 1

 \displaystyle = \exp(-\lambda) \frac{\lambda ^k}{k!}

となります。

ポアソン分布の期待値と分散

期待値

 E[X] = \lambda

分散

 V[X] = \lambda

コラム:二項分布との違いは?

ポアソン分布は試行回数 nが非常に大きく、確率 pが非常に小さいときに使われます。

しかし、最大の違いは、 n p分からなくても使えるという点です。

つまり、ある事象が起こる平均回数さえわかれば、確率を求めることが出来ます!

練習問題

ある製品は200コに1コの割合で不良品が含まれます。このとき、製造された製品からランダムに10コ取り出したとき、不良品が1コ含まれる確率はいくらか?

解答

不良品 \displaystyle p = \frac{1}{200} << 1より不良品が含まれる個数はポアソン分布に従います。また、問題文は「平均200回に1回、1個の不良品が含まれる現象が1回起きる確率はいくらか?」と読み替えることが出来ます。この時、 \displaystyle \lambda = n p = 10 \times \frac{1}{200} = \frac{1}{20}です。

よって、

\displaystyle P(X = 1) = \exp \left(-\frac{1}{20} \right) \frac{ \left(\frac{1}{20} \right) ^1}{1!} = 0.048

答えは4.8%となります。

まとめ

用語 意味
ポアソン分布 ある期間に平均 \lambda回起こる現象が、ある期間に X回起きる確率を表した分布
ポアソン分布の表し方  X~Po(\lambda)
ポアソン分布の確率 \displaystyle P(X = k) = \exp(- \lambda) \frac{\lambda ^k }{k!}
ポアソン分布の期待値  E[X] = \lambda
ポアソン分布の分散  V[X] = \lambda