とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.34〜母平均の信頼区間を求める(母分散が未知の場合)〜

前回の記事は、母分散が既知の場合の母平均の信頼区間を求めました。今回の記事は母分散が未知の場合の信頼区間を求めてみます。

しかし、実際の現場とかで、母平均を求めることってあるんでしょうか?母平均の信頼区間を求めるなんて、学生の統計学の試験か、統計検定ぐらいでしょうか?

母分散未知の場合の求め方は?

母分散が既知の場合、標準化を行うことで、標準正規分布を使って求めることができました。
しかし、母分散が未知の場合、標準化を行う際の分散が分からないため、標準化ができません。そこで母分散が分からない代わりに、不偏分散 s ^2を用いて区間推定を行います。また、不偏分散を使って区間推定を行う場合、 t分布を使います。

平均 \mu、不偏分散 s ^2正規分布に従う母集団から抽出したサンプルサイズ nの標本を使って算出される統計量 tの値は自由度 n-1 t分布に従います。よって、母分散が不明な場合の区間推定は、 t分布を使って行います。

コラム:t分布の性質

まぁ、ここは本筋(母分散が未知の場合の信頼区間を求める)とは外れるので、あまり深追いしなくていいですし、どちらかというと、統計Web 20-1. 標本とt分布の記事の丸パクリなので、無視でいいっちゃいいんですよね...。
自分のために書いていきますが...。
(正直、この辺りは専門家の方や、大学で真面目に勉強している理数系の学生の方が詳しい気がしますね...。)

t分布の成り立ち

標準正規分布 N(0,1)に従う Zと自由度 nカイ二乗分布 Wがあり、これらが互いに独立であるとき、次の式から算出される tは自由度 n t分布に従います。

 \displaystyle t = \frac{Z}{\sqrt{\frac{W}{n}}}

ここで、正規分布 N(\mu, \sigma ^2)に従う母集団から抽出したサンプルサイズ nの標本 (x_1, x_2, \dots, x_n)を考える。
定義から、 \displaystyle \frac{\bar{x} - \mu}{\sqrt{\frac{s ^2}{n}}}は標準正規分布 N(0,1)に、 \displaystyle \sum_{i=1} ^{n} \left(\frac{x_i - \bar{x}}{\sigma} \right) ^2は自由度 (n-1)カイ二乗分布に従う。これらを自由度 (n-1)とした時、上式に当てはめると、

 \displaystyle t = \frac{Z}{\sqrt{\frac{W}{n-1}}}

 \displaystyle = \frac{\frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}}}{\sqrt{\frac{\sum_{i=1} ^{n} \left(\frac{x_i - \bar{x}}{\sigma} \right) ^2}{n-1}}}

 \displaystyle = \frac{\sqrt{n}(\bar{x} - \mu)}{\sqrt{\frac{(x_i - \bar{x}) ^2}{n-1}}}

 \displaystyle = \frac{\sqrt{n}(\bar{x} - \mu)}{\sqrt{s ^2}}

 \displaystyle = \frac{\bar{x} - \mu}{\sqrt{\frac{s ^2}{n}}}

ここで、 s ^2は不偏分散で、 tは自由度 (n-1) t分布に従う。
分からなくていいです。私も分からないので。
(じゃあ、記事に書くなって話ではあるんですが。)

t分布の期待値と分散

確率変数 Xが自由度 m t分布にしたがっているとき、 Xの期待値と分散は次のようになる。

 \displaystyle E[X] = 0 (m > 1)

 \displaystyle V[X] = \frac{m}{m-2} (m > 2)

母平均の信頼区間の求め方〜母分散未知〜

手順として大きく4つになります。

  1. 標本平均 \bar{x}と不偏分散 s ^2を求める。
  2. 統計量 tを計算する。
  3. 2で算出された統計量が t分布の100 \alpha \%の面積の範囲にあれば良い。
  4. 100 \alpha \%信頼区間を求める。

順に見ていきます。

1. 標本平均と不偏分散を求める

 \displaystyle \bar{x} = \frac{1}{n} \sum_{i=1} ^{n} x_i

 \displaystyle s ^2 = \frac{1}{n-1} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2

2. 統計量を計算する

 \displaystyle t = \frac{\bar{x} - \mu}{\sqrt{\frac{s ^2}{n}}}

 \muは母平均ですね。母平均の信頼区間を求めたいので、正確には上の式は求められません。

3. 2で算出された統計量を計算する

ここで、自由度は (n-1)であることに注意する必要があります。

 t分布表でググると以下の記事がヒットしたので、こちらを参考にします。いや、統計Webさまさま。

bellcurve.jp

ここで、 t_\frac{\alpha}{2}(n-1) t (\alpha)で置き換えるとして、統計量 tは以下の範囲にあれば良いことになります。

 \displaystyle -t (\alpha) \leq t \leq t (\alpha)

ここで、 t_\frac{\alpha}{2}(n-1) \displaystyle \frac{\alpha}{2}となっているのは、前回と同じで、両側検定をするためです。
仮に 95\%信頼区間として求めるなら、上の記事から \alpha 0.025の列を見れば良いです。(2倍すれば 0.05、つまり 5\%)

さて、 \displaystyle  -t (\alpha) \leq t \leq t (\alpha)に2で求めた統計量 tを代入します。

 \displaystyle  -t (\alpha) \leq \frac{\bar{x} - \mu}{\sqrt{\frac{s ^2}{n}}} \leq t (\alpha)

4. 信頼区間を求める

 100 \alpha \%の信頼区間を求めます。手順3で見たように 95\%信頼区間であれば、 t分布表の \alpha 0.025の列を見れば良いです。
また、サンプルサイズは nですが、自由度は (n-1)となります。 t分布表でみる場合は、自由度を参考にするので (n-1)の行をみるように注意しましょう。

さて、本題の \muの信頼区間を求めてみましょう。 \muの幅を求めりゃいいので、

 \displaystyle  -t (\alpha) \leq \frac{\bar{x} - \mu}{\sqrt{\frac{s ^2}{n}}} \leq t (\alpha)

 \displaystyle  -t (\alpha) \sqrt{\frac{s ^2}{n}} \leq \bar{x} - \mu \leq t (\alpha) \sqrt{\frac{s ^2}{n}}

 \displaystyle  \bar{x} -t (\alpha) \sqrt{\frac{s ^2}{n}} \leq  \mu \leq \bar{x}  + t (\alpha) \sqrt{\frac{s ^2}{n}}

あとは、計算するだけで求まりますね。お疲れ様でした。

区間推定の特徴(母分散未知の場合)

信頼区間の幅は、
信頼係数 \alpha(0 \leq \alpha \leq 1)が小さいときほど
また
サンプルサイズ nが大きいほど
狭くなります。

この特徴ですが、母分散既知の場合と変わりません。

まとめ

今回の記事のまとめです。

~母分散未知の母平均の信頼区間の手順~

  1. 標本平均 \bar{x}と不偏分散 s ^2を求める。
  2. 統計量 tを計算する。
  3. 2で算出された統計量が t分布の100 \alpha \%の面積の範囲にあれば良い。
  4. 100 \alpha \%信頼区間を求める。

 \displaystyle  \bar{x} -t (\alpha) \sqrt{\frac{s ^2}{n}} \leq  \mu \leq \bar{x}  + t (\alpha) \sqrt{\frac{s ^2}{n}}


~信頼区間の特徴~
信頼係数 \alpha(0 \leq \alpha \leq 1)が小さいほど、また、サンプルサイズ nが大きいほど狭くなる

コラム:標準正規分布表の面積に注意?

前回と今回続けて、信頼区間の話でした。
信頼区間を求める際に非常に重要な役割をになっている標準正規分布表ですが、参考にする記事や書籍によっては求めている範囲が違うなんてことがあります。

たとえば、以下の記事では、 0 Z_0までの面積(確率)を求めている標準正規分布表を参考にしています。

jukenphysics.blog.fc2.com


一方、以下の記事では、 z \inftyまでの面積(確率)を求めている標準正規分布表を紹介しています。

staff.aist.go.jp

もし、統計検定の試験や大学の統計学の試験などで、普段と見慣れない標準正規分布表が出てきたとしても、本質としては変わらないので焦らずに求めるようにしましょう。

社会に出たら統計解析向けのR言語のライブラリやPythonのライブラリが求めてくれるので、あんまり気にしなくていいと思います。(とは言っても、どうやって見れば良いかを知っておくのは大事ですよ。)