とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.33〜母平均の信頼区間を求める(母分散が既知の場合)〜

今回の記事は母分散が既知の場合の、母平均の信頼区間の値を求めてみます。

正直な話、母平均が未知なのに、どうして母分散が分かるんだって気がしますが...。そういう特殊ケースがあるんでしょう、世の中には。

母平均の信頼区間~母分散が既知の場合~

手順として大きく4つになります。また、今回は 95\%信頼区間を例に見ていくことにしますが、信頼係数が 90\%でも 99\%でもやることは変わりません(途中の数値が変わるぐらいです)。

  1. 標本平均 \bar{x}を求める。
  2. 標本平均の標準化を行う。
  3. 2で標準化した値が標準正規分布 95\%の面積の範囲にあれば良いので、標準正規分布表から上側 2.5\%点を求める。
  4. 信頼区間を求める。

では、順に見ていきましょう。

1. 標本平均 \bar{x}を求める

言葉の通りです。標本平均を求めます。仮に n個のデータ X = \{ x_1, x_2, \dots, x_n \} の標本平均を求める場合は、

 \displaystyle \bar{x} = \frac{1}{n} \sum_{i=1} ^{n} x_i

となります。

2. 標本平均の標準化を行う

母平均は未知なので \muとします。そして、(なぜか値が分かっている)母分散を \sigma ^2、サンプルサイズを nとすると(ここの nは1で出てきた nです)、標準化した値を zで表して、

 \displaystyle  z = \frac{\bar{x} - \mu}{\sqrt{\frac{\sigma ^2}{n}}}

となります。

3. 標準正規分布表から上側2.5%点を求める

例によって、標準正規分布表から求めます。
ここで、なぜ 95\%の信頼区間を求めるのに、 5\%ではなく 2.5\%なのかというと、上と下(正規分布で言えば、右端と左端)の 2.5\%を合わせると 5\%になりますよね。
このように、信頼区間上と下の両側を調べることを両側検定と言い、反対に信頼区間の上もしくは下の片側一方だけを調べることを片側検定と言います。

(両側検定、片側検定の詳しい話に関しては後々解説することにします。今すぐ知りたい方は統計Webさんの23-6. 両側検定と片側検定を参照ください。)

では、標準正規分布表から面積が 2.5\%となる Zの値を探してみましょう。
標準正規分布表では、0~ Zまでの確率(積分値)を求めています。一方で、私たちが求めたいのは下図の赤い矢印が指す部分です。
このとき、赤い矢印の部分の確率は 2.5\%なので、標準正規分布表では反対に 47.5\%となる zの値を求めればよいです。

f:id:kurasher:20210313224208p:plain

よって、標準正規分布表から 47.5\%となる zの値は

 z = 1.96

となります。図で表すと下の色のついた範囲が 2.5\%になります。

f:id:kurasher:20210313232509p:plain

式で表すと下記になります。

 \displaystyle \int_{1.96} ^{\infty} f(z) dz = 0.025

4. 信頼区間を求める

3から、上側 2.5\% zの値は 1.96(下側 2.5\% zの値は -1.96)と分かりました。ここで、母平均の 95\%の範囲を知りたいので、その範囲を zで表すと、

 -1.96 \leq z \leq 1.96

となります。

さて、ここで問題に立ち返ると、我々は 95\%信頼区間の母平均の値を知りたいです。そのため、上式を母平均 \muについて解かないといけません。
ここで、

 \displaystyle  z = \frac{\bar{x} - \mu}{\sqrt{\frac{\sigma ^2}{n}}}

としていたので、これを代入して \muについて解けば良さそうです。

 -1.96 \leq z \leq 1.96

 \displaystyle -1.96 \leq \frac{\bar{x} - \mu}{\sqrt{\frac{\sigma ^2}{n}}} \leq 1.96

 \displaystyle -1.96 \sqrt{\frac{\sigma ^2}{n}} \leq \bar{x} - \mu \leq 1.96\sqrt{\frac{\sigma ^2}{n}}

 \displaystyle \bar{x} -1.96 \sqrt{\frac{\sigma ^2}{n}} \leq \mu \leq \bar{x} + 1.96\sqrt{\frac{\sigma ^2}{n}}

 \muについて解くとこのようになりました。ここで、 \bar{x} \sigma ^2 nはすべて既知の値であるため、母平均 \muの値を求めることができます。

一般化する

今回、信頼係数が 95\%というもとで、信頼区間の求め方の手順を見てきました。ここで、最後の手順4で出てきた展開式を一般的に表してみることにします。

信頼係数を \alpha(0 \leq \alpha \leq 1) 100\alpha \%)とすると、標準正規分布の上側確率は

 \displaystyle \frac{1-\alpha}{2}

と表現できます。この時の zの値を z(\frac{1-\alpha}{2})で表すと、最後の手順4で出てきた展開式は以下のように表せます。

 \displaystyle \bar{x} - z\left(\frac{1-\alpha}{2} \right) \sqrt{\frac{\sigma ^2}{n}} \leq \mu \leq \bar{x} + z \left( \frac{1-\alpha}{2} \right) \sqrt{\frac{\sigma ^2}{n}}

 95\%信頼区間であれば、 z\left(\frac{1-\alpha}{2} \right) = 1.96となります。
ちなみに 99\%信頼区間であれば、 z\left(\frac{1-\alpha}{2} \right) = 2.58となります。

区間推定の特徴(母分散が既知)

信頼区間の幅は、
信頼係数 \alpha(0 \leq \alpha \leq 1)が小さいときほど
また
サンプルサイズ nが大きいほど
狭くなります。

まとめ

今回の記事のまとめです。

~母分散既知の母平均の信頼区間の手順~

  1. 標本平均 \bar{x}を求める。
  2. 標本平均の標準化を行う。
  3. 2で標準化した値が標準正規分布 100\alpha \%の面積の範囲にあれば良いので、標準正規分布表から上側 z(\frac{1-\alpha}{2})点を求める。
  4. 信頼区間を求める。

 \displaystyle \bar{x} - z\left(\frac{1-\alpha}{2} \right) \sqrt{\frac{\sigma ^2}{n}} \leq \mu \leq \bar{x} + z \left( \frac{1-\alpha}{2} \right) \sqrt{\frac{\sigma ^2}{n}}


~信頼区間の特徴~
信頼係数 \alpha(0 \leq \alpha \leq 1)が小さいほど、また、サンプルサイズ nが大きいほど狭くなる