とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.35~母平均の差の信頼区間~

今回は母平均の差の求め方について書いていきます。
私が統計検定2級取得に勤しんでいた頃、この章をみた時、「さすがにこんな難しい問題、統計検定では出ないだろ」と思って、過去問を漁ったところ普通に出てきてました。
そして、泣く泣く勉強したことをいまだに覚えています。
あ、統計検定2級は取れましたよ。ギリギリでしたけど。

f:id:kurasher:20210528222731p:plain
統計検定2級合格証

古いな、2019年って。

母平均の差の信頼区間

2つの異なる母集団があったとき、それぞれの母集団の平均の差を信頼区間で算出することが可能です。例えば、1組の算数のテストの平均と2組の算数のテストの平均の差とかですね。


ただし、母平均の差の信頼区間を求める場合は注意が必要で、対応のあるデータ対応のないデータかで算出方法が異なってきます。

対応のあるデータ

対応のあるデータとは、条件を変えても同じ個体群で繰り返し測定したデータのことです。例えば、A、B、Cというある子供の小学5年生の時の身長と中学生2年生の時の身長などデータがペアになっているもののことを指します。

データ同士がペアになっているため、2つのデータのサンプルサイズは必ず等しくなります。

対応のないデータ

一方で、対応のないデータですが、それぞれの条件において測定した個体群が異なるデータのことを指します。例えば、10歳の小学生の身長をA、B、Cの3人で測定し、15歳の中学生の身長をD、E、Fの3人で測定した時、A、B、CとD、E、Fはそれぞれ違う人間なので、得られたデータは対応のないデータになります。
また、データ数が常にペアになっているわけではなく、もう一方のデータ数と違うこともあります。

式の組み立て方

式の作り方を見ていきましょう。基本の式は母分散が未知の母平均の信頼区間の求め方と同じです。

 \displaystyle  -t (\alpha) \leq \frac{\bar{x} - \mu}{\sqrt{\frac{s ^2}{n}}} \leq t (\alpha)

ただし、 t (\alpha) t_\frac{\alpha}{2}(n-1) \bar{x}は標本平均、 \muは母平均、 s ^2は不偏分散です。

対応のあるデータの場合

以下の例を考えます。

[例] あるクラスからランダムに選んだ n人の生徒の1学期と2学期の数学のテストの差を調べる。ただし、各学期のテストの点数はそれぞれ異なる正規分布に従うとする。

1. それぞれのデータの差の平均値と不偏分散を求める。

絶対値では考えないため、負の値を値を取る事もあります。ここでは、差の平均値と、不偏分散を以下のように表します。添字の d differenceの頭文字です。

差の平均値 x_d、不偏分散 s_d ^2

2. 抽出したサンプルサイズを n、信頼係数を \alpha = (100\alpha \%)として式を組み立てる。

基本の式は上記で書いた式と同じです。母平均の差を \mu_d、差の平均値 x_d、不偏分散 s_d ^2で表すと、

 \displaystyle  -t (\alpha) \leq \frac{\bar{x_d} - \mu_d}{\sqrt{\frac{s_d ^2}{n}}} \leq t (\alpha)

ただし、 t (\alpha) t_\frac{\alpha}{2}(n-1)です。

上記式を変形すると、

 \displaystyle  \bar{x_d} -t (\alpha) \sqrt{\frac{s_d ^2}{n}} \leq  \mu_d \leq \bar{x_d}  + t (\alpha) \sqrt{\frac{s_d ^2}{n}}

となります。

対応のないデータの場合

以下の例を考えます。

[例] 1組の生徒 n_1人、2組の生徒 n_2のテストの結果の差を調べる。ただし、各クラスのテストの点数はそれぞれ異なる正規分布に従うものとする。

1組のテスト 2組のテスト
母平均  \mu_1 母平均  \mu_2
母平均  \bar{x_1} 母平均  \bar{x_2}
不偏分散  s_1 ^2 不偏分散  s_2 ^2
サンプルサイズ  n_1 サンプルサイズ  n_2

1. それぞれのデータの平均値と不偏分散を求める。(今回は上記表で示しているように、すでに求めたという話で進めていきます。)

2. それぞれのデータから算出される分散をまとめた分散(プール分散)を次の式から求めます。プールした分散を s_p ^2として、

 \displaystyle s_p ^2 = \frac{(n_1 - 1) s_1 ^2 + (n_2 - 1) s_2 ^2}{n_1 + n_2 - 2}

で求めます。

3. 統計量 tから母平均の差 \mu_1 - \mu_2を求める。

まず統計量 tについてですが、

 \displaystyle t = \frac{\bar{x} - \mu}{\sqrt{\frac{s ^2}{n}}}

という風に表せました。今回は母平均の差を求めたいため、統計量 tの式の \bar{x} \bar{x_1} - \bar{x_2} \mu \mu_1 - \mu_2、不偏分散 s ^2 s_p ^2に置き換えます。つまり、

 \displaystyle t_d = \frac{(\bar{x_1} - \bar{x_2})- (\mu_1 - \mu_2)}{\sqrt{\frac{s_p ^2}{n_1} + \frac{s_p ^2}{n_2}}}

となります。

 \displaystyle  -t_d (\alpha) \leq  t_d   \leq t_d (\alpha)

 \displaystyle  -t_d (\alpha) \leq \frac{(\bar{x_1} - \bar{x_2})- (\mu_1 - \mu_2)}{\sqrt{\frac{s_p ^2}{n_1} + \frac{s_p ^2}{n_2}}}   \leq t_d (\alpha)

 \displaystyle -t_d (\alpha)\sqrt{\frac{s_p ^2}{n_1} + \frac{s_p ^2}{n_2}} \leq  (\bar{x_1} - \bar{x_2})- (\mu_1 - \mu_2) \leq t_d (\alpha)\sqrt{\frac{s_p ^2}{n_1} + \frac{s_p ^2}{n_2}}

よって、

 \displaystyle (\bar{x_1} - \bar{x_2}) - t_d (\alpha)\sqrt{\frac{s_p ^2}{n_1} + \frac{s_p ^2}{n_2}} \leq (\mu_1 - \mu_2) \leq (\bar{x_1} - \bar{x_2}) + t_d (\alpha)\sqrt{\frac{s_p ^2}{n_1} + \frac{s_p ^2}{n_2}}

ここで、 t_d (\alpha) t_{d \frac{\alpha}{2}}(n_1 + n_2 - 2)です。

まとめ

用語 意味
対応のあるデータ 条件を変えても同じ個体群で繰り返し測定したデータのこと
 \displaystyle  \bar{x_d} -t (\alpha) \sqrt{\frac{s_d ^2}{n}} \leq  \mu_d \leq \bar{x_d}  + t (\alpha) \sqrt{\frac{s_d ^2}{n}}
ただし、 t (\alpha) t_\frac{\alpha}{2}(n-1)
対応のないデータ それぞれの条件において測定した個体群が異なるデータ
 \displaystyle (\bar{x_1} - \bar{x_2}) - t_d (\alpha)\sqrt{\frac{s_p ^2}{n_1} + \frac{s_p ^2}{n_2}} \leq (\mu_1 - \mu_2) \leq (\bar{x_1} - \bar{x_2}) + t_d (\alpha)\sqrt{\frac{s_p ^2}{n_1} + \frac{s_p ^2}{n_2}}
ただし、 t_d (\alpha) t_{d \frac{\alpha}{2}}(n_1 + n_2 - 2)