とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.36~母比率の信頼区間~

今回の記事は母比率の信頼区間についてです。正直よく分かっていないので、この記事を読む方は要注意です。

ちなみに、最近の楽しみは毎週土曜の19時から放送される第4回Abemaトーナメントを見ることです。

母比率とは

成功確率が pである試行を n回行うときに成功する回数を Xとすると、 Xは二項分布 B(n, p)に従う。この pが母比率に対応する。
もっと簡単にいえば、母集団の比率のことです。

母比率の信頼区間の求め方

二項分布に従う確率変数 Xの期待値 E[X]と分散 V[X]は、

 E[X] = np

 V[X] = np(1-p)

となります。ここで、 nは試行回数、 pは確率です。

さて、 nがある程度大きいとき、中心極限定理から、 B(n, p) N(np, np(1-p))に近似できます。これにより、確率変数 Xが二項分布に従う場合、 Xを標準化した Z nが十分に大きい時は、

 Z 〜 N(0, 1)

となります。ちなみに、二項分布に従う確率変数 Xを標準化すると、

 \displaystyle Z = \frac{X - \mu}{\sigma} = \frac{X - np}{\sqrt{np(1-p)}}

となります。

この時、標本比率は、 \displaystyle \hat{p} = \frac{X}{n}から求められます。この標本比率 \hat{p}を使って、 Zを表すと

 \displaystyle Z = \frac{X - np}{\sqrt{np(1-p)}}

 \displaystyle =  \frac{\frac{X}{n} - p}{\sqrt{\frac{p(1-p)}{n}}}

よって、 \hat{p}は近似的に正規分布 \displaystyle N\left(P, \frac{p(1-p)}{n}\right)に従います。

抽出したサンプルサイズを n、標本比率を \hat{p}、信頼係数を (1-\alpha)(=100(1-\alpha)\%)とすると、次の式から母比率 p (1-\alpha)(=100(1-\alpha)\%)信頼区間を求めることができます。

 \displaystyle -Z\left(\frac{\alpha}{2}\right) \leq Z \leq Z\left(\frac{\alpha}{2}\right)

 \displaystyle -Z\left(\frac{\alpha}{2}\right) \leq  \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} \leq Z\left(\frac{\alpha}{2}\right)

 \displaystyle -Z\left(\frac{\alpha}{2}\right)\sqrt{\frac{p(1-p)}{n}} \leq  {\hat{p} - p} \leq Z\left(\frac{\alpha}{2}\right)\sqrt{\frac{p(1-p)}{n}}

 \displaystyle \hat{p} - Z\left(\frac{\alpha}{2}\right)\sqrt{\frac{p(1-p)}{n}} \leq  p \leq \hat{p} + Z\left(\frac{\alpha}{2}\right)\sqrt{\frac{p(1-p)}{n}}

ただし、 Z\left(\frac{\alpha}{2}\right) Z_\frac{\alpha}{2}です。

さてここで、 \hat{p} pの一致推定量 nが大きくなれば、推定量がだんだんと真のパラメータに近づく性質)であり、nが大きい時にはほぼ pに一致すると考えられることから \displaystyle \sqrt{\frac{p(1-p)}{n}} p \hat{p}で置き換えることが可能です。よって、

 \displaystyle \hat{p} - Z\left(\frac{\alpha}{2}\right)\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq  p \leq \hat{p} + Z\left(\frac{\alpha}{2}\right)\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

まとめ

用語 意味
母比率 成功確率が pである試行を n回行うときに成功する回数を Xとすると、 Xは二項分布 B(n, p)に従う時の p
母比率の信頼区間  \displaystyle \hat{p} - Z\left(\frac{\alpha}{2}\right)\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq  p \leq \hat{p} + Z\left(\frac{\alpha}{2}\right)\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
ただし、 Z\left(\frac{\alpha}{2}\right) Z_\frac{\alpha}{2}