今回は母平均の差の求め方について書いていきます。
私が統計検定2級取得に勤しんでいた頃、この章をみた時、「さすがにこんな難しい問題、統計検定では出ないだろ」と思って、過去問を漁ったところ普通に出てきてました。
そして、泣く泣く勉強したことをいまだに覚えています。
あ、統計検定2級は取れましたよ。ギリギリでしたけど。
古いな、2019年って。
母平均の差の信頼区間
2つの異なる母集団があったとき、それぞれの母集団の平均の差を信頼区間で算出することが可能です。例えば、1組の算数のテストの平均と2組の算数のテストの平均の差とかですね。
ただし、母平均の差の信頼区間を求める場合は注意が必要で、対応のあるデータか対応のないデータかで算出方法が異なってきます。
対応のあるデータ
対応のあるデータとは、条件を変えても同じ個体群で繰り返し測定したデータのことです。例えば、A、B、Cというある子供の小学5年生の時の身長と中学生2年生の時の身長などデータがペアになっているもののことを指します。
データ同士がペアになっているため、2つのデータのサンプルサイズは必ず等しくなります。
対応のないデータ
一方で、対応のないデータですが、それぞれの条件において測定した個体群が異なるデータのことを指します。例えば、10歳の小学生の身長をA、B、Cの3人で測定し、15歳の中学生の身長をD、E、Fの3人で測定した時、A、B、CとD、E、Fはそれぞれ違う人間なので、得られたデータは対応のないデータになります。
また、データ数が常にペアになっているわけではなく、もう一方のデータ数と違うこともあります。
式の組み立て方
式の作り方を見ていきましょう。基本の式は母分散が未知の母平均の信頼区間の求め方と同じです。
ただし、は、は標本平均、は母平均、は不偏分散です。
対応のあるデータの場合
以下の例を考えます。
[例] あるクラスからランダムに選んだ人の生徒の1学期と2学期の数学のテストの差を調べる。ただし、各学期のテストの点数はそれぞれ異なる正規分布に従うとする。
1. それぞれのデータの差の平均値と不偏分散を求める。
絶対値では考えないため、負の値を値を取る事もあります。ここでは、差の平均値と、不偏分散を以下のように表します。添字のはの頭文字です。
差の平均値、不偏分散
2. 抽出したサンプルサイズを、信頼係数をとして式を組み立てる。
基本の式は上記で書いた式と同じです。母平均の差を、差の平均値、不偏分散で表すと、
ただし、はです。
上記式を変形すると、
となります。
対応のないデータの場合
以下の例を考えます。
[例] 1組の生徒人、2組の生徒のテストの結果の差を調べる。ただし、各クラスのテストの点数はそれぞれ異なる正規分布に従うものとする。
1組のテスト | 2組のテスト | |||
---|---|---|---|---|
母平均 | 母平均 | |||
母平均 | 母平均 | |||
不偏分散 | 不偏分散 | |||
サンプルサイズ | サンプルサイズ |
1. それぞれのデータの平均値と不偏分散を求める。(今回は上記表で示しているように、すでに求めたという話で進めていきます。)
2. それぞれのデータから算出される分散をまとめた分散(プール分散)を次の式から求めます。プールした分散をとして、
で求めます。
3. 統計量から母平均の差を求める。
まず統計量についてですが、
という風に表せました。今回は母平均の差を求めたいため、統計量の式のを、を、不偏分散をに置き換えます。つまり、
となります。
よって、
ここで、はです。
まとめ
用語 | 意味 |
---|---|
対応のあるデータ | 条件を変えても同じ個体群で繰り返し測定したデータのこと |
式 | ただし、は |
対応のないデータ | それぞれの条件において測定した個体群が異なるデータ |
式 | ただし、は |