とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.36 part2~母比率を扱った問題~

前回、母比率の信頼区間を簡単に説明しましたが、そこそこ難しいので練習問題を3題ほど載せて解説します。(いずれも統計Webさんからですが)

ちなみに、投稿頻度が少なくなっているのはたまたまです。

問題1〜信頼区間の幅を求める場合

テレビ番組の視聴に関する該当アンケートを行った。100人にアンケートを行うと、A番組を見ている人は 10\%だった時、A番組の視聴率 p 95\%信頼区間はいくらか?

解説1

問題文から条件を読み取ると、 n = 100\displaystyle \hat{p} = \frac{X}{n} = \frac{10}{100} = 0.1となります。

ここで、

 \displaystyle Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}

を使います。つまり、

 \displaystyle \hat{p} - Z\left(\frac{\alpha}{2}\right)\sqrt{\frac{p(1-p)}{n}} \leqq   p \leqq  \hat{p} + Z\left(\frac{\alpha}{2}\right)\sqrt{\frac{p(1-p)}{n}}

となります。(ただし、 Z\left(\frac{\alpha}{2}\right) Z_{\frac{\alpha}{2}} )

ここで 95\%の信頼区間であることから Z_\frac{\alpha}{2} = 1.96、また pは一致推定量であることから p \hat{p}と置き換えることができるので、

 \displaystyle \hat{p} - 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leqq   p \leqq  \hat{p} +1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

となります。

これを計算すると、

 \displaystyle 0.1 - 1.96\sqrt{\frac{0.1(1-0.1)}{100}} \leqq   p \leqq  0.1 +1.96\sqrt{\frac{0.1(1-0.1)}{100}}

 \displaystyle 0.1 - 1.96\sqrt{\frac{0.09}{100}} \leqq   p \leqq 0.1 +1.96\sqrt{\frac{0.09}{100}}

 \displaystyle 0.1 - 1.96\frac{0.3}{10} \leqq  p \leqq  0.1 +1.96 \frac{0.3}{10}

 \displaystyle 0.1 - 0.0588 \leqq   p\leqq  0.1 +0.0588

 \displaystyle 0.0412 \leqq   p \leqq  0.1588

よって、A番組の視聴率 pの信頼区間 4.12\% 15.88\%となります。

イメージとしては下の図のようになります。図では pと書いてますが、全て \hat{p}に読み替えてください。

f:id:kurasher:20210703013258p:plain

問題2〜サンプルサイズを求める場合

テレビ番組の視聴に関する該当アンケートで信頼係数を 95\%とし、A番組の視聴率 p 95\%信頼区間で含まれる範囲(信頼区間の幅)を 5\%以下にするには何人以上の人にアンケートを実施する必要があるか?ただし、A番組の視聴率は 10\%以下である。

解説2

問題1では真のA番組の視聴率(要は母比率) pの信頼区間の幅を求める問題でした。一方、問題2はサンプルサイズ nを求める問題です。

A番組の視聴率の推定値は \hat{p} = 0.1、母比率を p、サンプルサイズを nとします。

ここで、 p 95\%信頼区間に含まれる範囲は

 \displaystyle \hat{p} - 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leqq  p \leqq  \hat{p} +1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

です。

この時、問題文から p 95\%信頼区間に含まれる範囲を 5\%以下にすることを考えると、 \hat{p}=0.1より

 \displaystyle 0.1 - 0.025 \leqq  p \leqq  0.1 + 0.025

となれば、 p 95\%信頼区間に含まれる範囲を 5\%以下にすることができます。

よって、

 \displaystyle 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leqq 0.025

を計算すれば良いことになります。ここで、 \hat{p}=0.1であとは上の式を nについて解けば良いので、

 \displaystyle 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leqq  0.025

 \displaystyle 1.96\sqrt{\frac{0.1(1-0.1)}{n}} \leqq  0.025

 \displaystyle 1.96\sqrt{0.09} \leqq  0.025 \times \sqrt{n}

 \displaystyle 1.96 \times 0.3 \leqq  \frac{25}{1000} \times \sqrt{n}

 \displaystyle 1.96 \times 0.3\leqq  \frac{1}{40} \times \sqrt{n}

 \displaystyle 1.96 \times 0.3 \times 40 \leqq  \times \sqrt{n}

 \displaystyle 23.53 ^2 \leqq    n

 \displaystyle 553.1\dots <  \displaystyle 554 \leqq  n



よって554人以上にアンケートを行えば、理論上、A番組の視聴率 p 95\%信頼区間で含まれる範囲 5\%以下にすることができます。

問題3〜標本比率が不明の場合

ある比率を調査し、 95\%区間推定を行う。信頼区間の幅を 4\%に収める場合、どの程度サンプルサイズを確保すれば良いか。

解説3

問題文から信頼区間の幅が 4\%なので、標本比率を \hat{p}、母比率を pとした場合、解説2から

 \displaystyle \hat{p} - 0.020 \leqq  p \leqq  \hat{p} + 0.02

より、

 \displaystyle 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leqq 0.020

となっていれば良いことになります。

ここで、 \hat{p}は問題文から読み取ることができません。このようの場合は \hat{p} = 0.5として計算を進めます。

なぜ、 \hat{p} = 0.5を採用するかというと、

  1. 信頼区間の幅が最も大きくなるのは \hat{p} = 0.5の場合である
  2.  \hat{p} = 0.5の場合を考えておけば、実際の \hat{p}がどのような数値であったとしても、それより信頼区間の幅が大きくなることはない

上記2つの理由のためです。

よって、 \hat{p} = 0.5として、上記式を計算すると、

 \displaystyle 1.96\sqrt{\frac{0.5(1-0.5)}{n}} \leqq 0.020

 \displaystyle 1.96\sqrt{0.5 \times 0.5} \leqq \frac{2}{100} \times \sqrt{n}

 \displaystyle 1.96 \times 0.5 \times 50 \leqq \sqrt{n}

 \displaystyle 49 \leqq \sqrt{n}

 \displaystyle 49 ^2 \leqq n

 \displaystyle 49 ^2 = 2401 \leqq n



よって、 2401以上のサンプルサイズを確保すれば良いことになります。

まとめ

まとめと言っても特にまとめることもないのですが...。

なんにせよ、ある道具を使いこなしたい(英語が話せるようになりたいとか、プログラミングできるようになりたいなど)のであれば、ただ座学として学ぶだけでは身につきません。
実践していくことが非常に重要だと思いますので、何度でも練習して着実に理解し、実際の現場でちゃんと使えるようにしておきましょう。

向き不向きはありますが、理解→実践の順だけで学ぶのではなく、実践→理解という順で学んでみるのも一つの勉強法だと思います。