前回、母比率の信頼区間を簡単に説明しましたが、そこそこ難しいので練習問題を3題ほど載せて解説します。（いずれも統計Webさんからですが）

ちなみに、投稿頻度が少なくなっているのはたまたまです。

問題1〜信頼区間の幅を求める場合

テレビ番組の視聴に関する該当アンケートを行った。100人にアンケートを行うと、A番組を見ている人は $10\%$ だった時、A番組の視聴率 $p$ の $95\%$ 信頼区間はいくらか？

解説1

問題文から条件を読み取ると、 $n = 100$ 、 $\displaystyle \hat{p} = \frac{X}{n} = \frac{10}{100} = 0.1$ となります。

ここで、

$\displaystyle Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}$

を使います。つまり、

$\displaystyle \hat{p} - Z\left(\frac{\alpha}{2}\right)\sqrt{\frac{p(1-p)}{n}} \leqq p \leqq \hat{p} + Z\left(\frac{\alpha}{2}\right)\sqrt{\frac{p(1-p)}{n}}$

となります。(ただし、 $Z\left(\frac{\alpha}{2}\right)$ は $Z_{\frac{\alpha}{2}}$ )

ここで $95\%$ の信頼区間であることから $Z_\frac{\alpha}{2} = 1.96$ 、また $p$ は一致推定量であることから $p$ を $\hat{p}$ と置き換えることができるので、

$\displaystyle \hat{p} - 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leqq p \leqq \hat{p} +1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$

となります。

これを計算すると、

$\displaystyle 0.1 - 1.96\sqrt{\frac{0.1(1-0.1)}{100}} \leqq p \leqq 0.1 +1.96\sqrt{\frac{0.1(1-0.1)}{100}}$

$\displaystyle 0.1 - 1.96\sqrt{\frac{0.09}{100}} \leqq p \leqq 0.1 +1.96\sqrt{\frac{0.09}{100}}$

$\displaystyle 0.1 - 1.96\frac{0.3}{10} \leqq p \leqq 0.1 +1.96 \frac{0.3}{10}$

$\displaystyle 0.1 - 0.0588 \leqq p\leqq 0.1 +0.0588$

$\displaystyle 0.0412 \leqq p \leqq 0.1588$

よって、A番組の視聴率 $p$ の信頼区間は $4.12\%$ 〜 $15.88\%$ となります。

イメージとしては下の図のようになります。図では $p$ と書いてますが、全て $\hat{p}$ に読み替えてください。

f:id:kurasher:20210703013258p:plain

問題2〜サンプルサイズを求める場合

テレビ番組の視聴に関する該当アンケートで信頼係数を $95\%$ とし、A番組の視聴率 $p$ が $95\%$ 信頼区間で含まれる範囲(信頼区間の幅)を $5\%$ 以下にするには何人以上の人にアンケートを実施する必要があるか？ただし、A番組の視聴率は $10\%$ 以下である。

解説2

問題1では真のA番組の視聴率(要は母比率) $p$ の信頼区間の幅を求める問題でした。一方、問題2はサンプルサイズ $n$ を求める問題です。

A番組の視聴率の推定値は $\hat{p} = 0.1$ 、母比率を $p$ 、サンプルサイズを $n$ とします。

ここで、 $p$ が $95\%$ 信頼区間に含まれる範囲は

$\displaystyle \hat{p} - 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leqq p \leqq \hat{p} +1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$

です。

この時、問題文から $p$ が $95\%$ 信頼区間に含まれる範囲を $5\%$ 以下にすることを考えると、 $\hat{p}=0.1$ より

$\displaystyle 0.1 - 0.025 \leqq p \leqq 0.1 + 0.025$

となれば、 $p$ が $95\%$ 信頼区間に含まれる範囲を $5\%$ 以下にすることができます。

よって、

$\displaystyle 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leqq 0.025$

を計算すれば良いことになります。ここで、 $\hat{p}=0.1$ であとは上の式を $n$ について解けば良いので、

$\displaystyle 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leqq 0.025$

$\displaystyle 1.96\sqrt{\frac{0.1(1-0.1)}{n}} \leqq 0.025$

$\displaystyle 1.96\sqrt{0.09} \leqq 0.025 \times \sqrt{n}$

$\displaystyle 1.96 \times 0.3 \leqq \frac{25}{1000} \times \sqrt{n}$

$\displaystyle 1.96 \times 0.3\leqq \frac{1}{40} \times \sqrt{n}$

$\displaystyle 1.96 \times 0.3 \times 40 \leqq \times \sqrt{n}$

$\displaystyle 23.53 ^2 \leqq n$

$\displaystyle 553.1\dots$ < $\displaystyle 554 \leqq n$

よって554人以上にアンケートを行えば、理論上、A番組の視聴率 $p$ が $95\%$ 信頼区間で含まれる範囲 $5\%$ 以下にすることができます。

問題3〜標本比率が不明の場合

ある比率を調査し、 $95\%$ 区間推定を行う。信頼区間の幅を $4\%$ に収める場合、どの程度サンプルサイズを確保すれば良いか。

解説3

問題文から信頼区間の幅が $4\%$ なので、標本比率を $\hat{p}$ 、母比率を $p$ とした場合、解説2から

$\displaystyle \hat{p} - 0.020 \leqq p \leqq \hat{p} + 0.02$

より、

$\displaystyle 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leqq 0.020$

となっていれば良いことになります。

ここで、 $\hat{p}$ は問題文から読み取ることができません。このようの場合は $\hat{p} = 0.5$ として計算を進めます。

なぜ、 $\hat{p} = 0.5$ を採用するかというと、

信頼区間の幅が最も大きくなるのは $\hat{p} = 0.5$ の場合である
$\hat{p} = 0.5$ の場合を考えておけば、実際の $\hat{p}$ がどのような数値であったとしても、それより信頼区間の幅が大きくなることはない

上記2つの理由のためです。

よって、 $\hat{p} = 0.5$ として、上記式を計算すると、

$\displaystyle 1.96\sqrt{\frac{0.5(1-0.5)}{n}} \leqq 0.020$

$\displaystyle 1.96\sqrt{0.5 \times 0.5} \leqq \frac{2}{100} \times \sqrt{n}$

$\displaystyle 1.96 \times 0.5 \times 50 \leqq \sqrt{n}$

$\displaystyle 49 \leqq \sqrt{n}$

$\displaystyle 49 ^2 \leqq n$

$\displaystyle 49 ^2 = 2401 \leqq n$

よって、 $2401$ 以上のサンプルサイズを確保すれば良いことになります。

まとめ

まとめと言っても特にまとめることもないのですが...。

なんにせよ、ある道具を使いこなしたい（英語が話せるようになりたいとか、プログラミングできるようになりたいなど）のであれば、ただ座学として学ぶだけでは身につきません。
実践していくことが非常に重要だと思いますので、何度でも練習して着実に理解し、実際の現場でちゃんと使えるようにしておきましょう。

向き不向きはありますが、理解→実践の順だけで学ぶのではなく、実践→理解という順で学んでみるのも一つの勉強法だと思います。

とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.36 part2～母比率を扱った問題～

問題1〜信頼区間の幅を求める場合

解説1

問題2〜サンプルサイズを求める場合

解説2

問題3〜標本比率が不明の場合

解説3

まとめ