とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.37~母比率の差の信頼区間~

今回は母比率の差の信頼区間です。とはいえ、理論だけでは難しいので例題を上げながら考えていきましょう。

例題

ある野菜ジュースのアンケート調査を行うと、女性では200人中80人が、男性では300人中60人が買ってみたいと答えた。
この結果からこの野菜ジュースを買ってみたいと答えた割合の差の95%信頼区間はいくらか?

今回はある野菜ジュースを買うか、買わないかの2択ですので、二項分布 B(n, p)に従うと考えることができます。

ここで、確率変数 Xが二項分布 B(n, p)に従い、 nが大きい場合、正規分布 N\left(p, \frac{p(1-p)}{n}\right)に従います。

また、正規分布の再現性から

 \hat{p_1} -  \hat{p_2} ~  N\left(p_1 - p_2 , \frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}\right)

とすることができます。

ここで、前に書いた下記ブログを参考にして式を組み立てていきます。

kurasher.hatenablog.com

母比率の差を求めたいので、

 \displaystyle  -Z (\alpha) \leq \frac{(\hat{p_1} - \hat{p_2})- (p_1 - p_2)}{\sqrt{\frac{\hat{p_1}(1-\hat{p_1})}{n_1} + \frac{\hat{p_2}(1-\hat{p_2})}{n_2}}} \leq Z (\alpha)

と書け、95%信頼区間から、

 \displaystyle  -1.96 \leq \frac{(\hat{p_1} - \hat{p_2})- (p_1 - p_2)}{\sqrt{\frac{\hat{p_1}(1-\hat{p_1})}{n_1} + \frac{\hat{p_2}(1-\hat{p_2})}{n_2}}} \leq 1.96

と書けます。

ここで、女性側を \hat{p_1}、男性側を \hat{p_2}とすると、

 \hat{p_1} = 0.4

 \hat{p_2} = 0.2

 n_1 = 200

 n_2 = 300

となります。

あとはこれを計算します。

 \displaystyle (\hat{p_1} - \hat{p_2}) -1.96 \times \sqrt{\frac{\hat{p_1}(1-\hat{p_1})}{n_1} + \frac{\hat{p_2}(1-\hat{p_2})}{n_2}} \leq (p_1 - p_2) \leq (\hat{p_1} - \hat{p_2}) + 1.96 \times \sqrt{\frac{\hat{p_1}(1-\hat{p_1})}{n_1} + \frac{\hat{p_2}(1-\hat{p_2})}{n_2}}

ここで、

 \displaystyle 1.96 \times \sqrt{\frac{\hat{p_1}(1-\hat{p_1})}{n_1} + \frac{\hat{p_2}(1-\hat{p_2})}{n_2}}

 \displaystyle = 1.96 \times \sqrt{\frac{0.4(1-0.4)}{200} + \frac{0.2(1-0.2)}{300}}

 \displaystyle = 1.96 \times \frac{1}{10} \times \sqrt{\frac{0.24}{2} + \frac{0.16}{3}}

 \displaystyle = 1.96 \times \frac{1}{10} \times \sqrt{\frac{0.72}{6} + \frac{0.32}{6}}

 \displaystyle = 1.96 \times \frac{1}{10} \times \sqrt{\frac{1.04}{6}}

 \displaystyle = 1.96 \times \frac{1}{10} \times 0.41633 \dots

 = 0.08160 \dots

となります。よって、

 \displaystyle (0.4 - 0.2) - 0.08160 \leq (p_1 - p_2) \leq (0.4 - 0.2) + 0.08160

 \displaystyle 0.11839 \leq (p_1 - p_2) \leq 0.28160

以上より、母比率の差の95%信頼区間

 \displaystyle 0.11839 \leq (p_1 - p_2) \leq 0.28160

となります。