とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.45〜2項分布で考える母比率の検定〜

知らないうちに4月になりましたね。そして4月が終わりましたね...。

この統計学基礎はいつになったら終わるのでしょうか?

今年中に終われば奇跡ってところですかね?

さてさて、今回は母比率の検定です。

母比率とは?

母集団の比率のことです。そのまんまといえばそのまんまですね。

で、ちょっと話が逸れるのですが、今までの検定の話は母集団が正規分布に従うことが必要な条件でした。

しかし、中心極限定理というものを使えば、母集団が正規分布に従わない場合でも標本が十分に大きい場合は標本平均の分布は正規分布に従うことが言えました。

よって、この中心極限定理を使うことで母集団が正規分布に従わなくても標準正規分布を用いて検定を行うことができます。

ということで、中心極限定理を利用して母集団が正規分布に従わなくても検定が行えることを実際に見ていきましょう。

例題

あるサイコロを12000回投げた時、1が2200回出た。このサイコロはどの目も等しく出る歪みのないサイコロと言えるか?

解答

仮に歪みのないサイコロであるなら、1〜6がほぼ等しく出るはずなので1の目が出る確率は

 \displaystyle P(X = 1)= \frac{1}{6}

となるはずです。今回12000回投げたのであれば1が出る回数は理論上は2000回になるはずですが...?

1 仮説を立てる

帰無仮説 H_0:このサイコロの1が出る確率 \displaystyle P(X = 1)= \frac{1}{6}である

対立仮説 H_1:このサイコロの1が出る確率 \displaystyle P(X = 1) \neq \frac{1}{6}である

2 有意水準を設定

 \alpha = 0.05とします。

3 適切な検定統計量を決める

さて、母比率の検定ではサンプルサイズ nが十分に大きい場合、中心極限定理を利用して標準化した統計量 zを以下のように表現できます。ここで p_0は母比率です。

 \displaystyle z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}



ここの式ですが、色々すっ飛ばしているので丁寧に見ていくことにしましょう。

まず、仮説の方を振り返って考えてみると「サイコロの1が \displaystyle P(X = 1)= \frac{1}{6}の確率で出るか出ないか」とも読み取れます。

つまり、 \displaystyle B\left(12000, \frac{1}{6} \right)の2項分布と考えることができます。

ということで、 \displaystyle B\left(12000, \frac{1}{6} \right)の期待値 \muと分散 \sigma ^2

 \displaystyle \mu = np = 12000 \times \frac{1}{6} = 2000

 \displaystyle \sigma ^2 = np(1-p) = 12000 \times \frac{1}{6}  \times (1 - \frac{1}{6}) = 1666.66...

と計算出来ます。

ここでサンプルサイズ nは十分大きいとき、中心極限定理より \displaystyle B\left(12000, \frac{1}{6} \right) N(0, 1)の標準正規分布に従います。

よって、統計量 \displaystyle zは2項分布 B(np, np(1-p))から、

 \displaystyle z = \frac{\bar{X} - \mu}{\sigma}

 \displaystyle = \frac{(サイコロの1が出る回数) - np}{\sqrt{np(1-p)}}

ここで、 \hat{p} = \frac{(1が出る回数)}{総計数} とすると、

 \displaystyle z = \frac{\bar{X} - \mu}{\sigma}

 \displaystyle = \frac{\frac{X}{n} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}

 \displaystyle = \frac{\hat{p}- p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}

となります。これを計算すると、

 \displaystyle z = \frac{\frac{2200}{12000} - \frac{1}{6}}{\sqrt{\frac{\frac{1}{6}(1-\frac{1}{6})}{12000}}} \simeq 4.899

となります。

以上、統計量を計算出来ました。

4 棄却ルールを決める

中心極限定理から、この検定で使用する分布は標準正規分布です。今回、サイコロの1の目の出方に歪みがないかどうかを確認したいため、両側検定を行います。

この時、統計数値表から Z_{0.025}の値は

 Z_{0.025} = 1.96

となります。

5 検定統計量をもとに結論を出す

今まで求めた情報を元にすると以下の図のようになります。

 P(Z = 1.96) \lt P(4.899)より統計量は棄却域に入りました。

よって、有意水準 5\%において、帰無仮説 H_0を棄却し対立仮説 H_1を採択します。

よって、このサイコロの1の目が出る確率は \displaystyle \frac{1}{6}ではないと結論づけられます。

まとめ

用語 意味
母比率 母集団の比率のこと