とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.49〜母比率の差の検定〜

今のプロジェクトが煌々と燃えていまして。
炎上なんてものじゃないです。個人的には山火事レベル...。

そんなわけでだいぶ仕事したくない欲が非常に強いのです。何かの拍子に会社潰れないかなと思うぐらい。

さてさて、今回は母比率の差の検定です。

母比率の差の検定

2つの標本から得た標本比率を使って母比率が等しいかを検定すること。

例題

あるドラマの視聴率を調査すると、関東地区では5000世帯中、1000世帯が視聴していたことがわかった。一方、関西地区では3000世帯中540世帯が視聴していた。この結果から、2地区の視聴率に差があるといえるか。

関東地区 関西地区
調査世帯数  5000  3000
視聴世帯数  1000  540

母比率の差の検定の手順

母比率の差の検定ですが、(仮説)検定を行う以上、今まで見てきた下記手順と同じように行います。

  1. 仮説を立てる
  2. 有意水準を設定
  3. 適切な検定統計量を決める
  4. 棄却ルールを決める
  5. 検定統計量をもとに結論を出す

1 仮説を立てる

 H_0:関東地区と関西地区の視聴率は等しい
 H_1:関東地区と関西地区の視聴率は等しくない(差がある)

2 有意水準を設定

 \alpha = 0.05

3 適切な検定統計量を決める

母比率の差の検定では、サンプルサイズ nが十分に大きい時には、統計量 z N(0,1)に従う。
1群目の標本比率を \hat{p}_1
1群目のサンプルサイズを n_1

2群目の標本比率 \hat{p}_2
サンプルサイズを n_2
とする。

また、2つの標本比率を1つにまとめた標本比率(プールした標本比率) \hat{p}を使う。

 \displaystyle z = \frac{ \hat{p_1}  - \hat{p_2} - (\mu_1 - \mu_2)}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1} + \frac{1}{n_2})}}

 \displaystyle = \frac{ \hat{p_1}  - \hat{p_2}}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1} + \frac{1}{n_2})}}

帰無仮説は「視聴率は等しい」なので、 \mu_1 - \mu_2 = 0となるため、上記のようになります。

また、

 \displaystyle \hat{p} = \frac{n_1 \times \hat{p_1} + n_2 \times \hat{p_2}}{n_1 + n_2}

です。

4 棄却ルールを決める

標準正規分布を利用する。また、関東地区と関西地区とで視聴率の差があるかどうかを確認するため、両側検定を行う。

 \displaystyle z_{0.025} = 1.96

5 検定統計量をもとに結論を出す

さて、結論を出しましょう。

 \displaystyle \hat{p_1} = \frac{1000}{5000} = 0.2

 \displaystyle \hat{p_2} = \frac{540}{3000} = 0.18

 \displaystyle \hat{p} = \frac{5000 \times 0.2 + 3000 \times 0.18}{5000 + 3000}

 \displaystyle = \frac{1000 +  540 }{8000}

 \displaystyle = 0.1925

よって、

 \displaystyle z = \frac{ \hat{p_1}  - \hat{p_2}}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1} + \frac{1}{n_2})}}

 \displaystyle  = \frac{ 0.2  - 0.18}{\sqrt{0.1925(1-0.1925)(\frac{1}{5000} + \frac{1}{3000})}}

 \displaystyle = 2.197

よって、有意水準 5\%において帰無仮説 H_0を棄却し、対立仮説 H_1を採択する。

つまり、関東地区と関西地区とで視聴率に差がある。

(ここではあくまで、視聴率に差があるということがわかっただけで、どれぐらいの差があるのかまではわかっていません。どれくらいの差があるかを求めるならさらに深く追求する必要があります。)

コラム:母比率の差の検定と正規分布の再生性

 X〜B(n, p)に従うとき、 nが大きい場合、 X〜N(p, p(1-p))に従う。また、これらの和もまた正規分布に従う。

 \displaystyle \hat{p_1} - \hat{p_2} 〜N\left(p_1 - p_2、\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2} \right)

 (\hat{p_1} - \hat{p_2})を正規化した統計量 z正規分布に従う。

 \displaystyle z = \frac{(\hat{p_1} - \hat{p_2}) - (p_1 - p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}} 〜N(0、1)

この母比率の差の検定は、帰無仮説 H_0 p_1 = p_2としていることから、 p_1 = p_2 = \hat{p}としたときの p_1 p_2をプールした標本比率 \hat{p}を使って、次のように書き換えられる。

 \displaystyle z = \frac{(\hat{p_1} - \hat{p_2}) - (p_1 - p_2)}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n_1} + \frac{\hat{p}(1-\hat{p})}{n_2}}}

従って、

 \displaystyle z = \frac{(\hat{p_1} - \hat{p_2})}{\sqrt{\hat{p}(1-\hat{p}) \left( \frac{1}{n_1} + \frac{1}{n_2} \right)}}

となる。

まとめ

用語 意味
母比率の差の検定 2つの標本から得た標本比率を使って母比率が等しいかを検定すること