はてさて、今回は適合度のお話です。
適合度の検定とは
調査によって得られたクロス集計表がある場合、実測度数がある特定の分布に適合(一致)するかどうかを検定すること。
ここでクロス集計表とは、2つのカテゴリーに属するデータをそれぞれのカテゴリーで同時に分類し、その度数を集計したものをという。
例題
日本の血液型の分布はA、B、O、AB型はそれぞれ、、、、であると言われている。ここでランダムに選ばれた100人の血液型のデータでA型55人、B型16人、O型22人、AB型7人だった。この集計したデータは日本人の血液型の分布と同じといえるか?
適合度検定の手順
適合度検定では「理論値」からの「実測値」のずれを算出し、検定を行います。とはいえ、(仮説)検定を行う以上、今まで見てきた下記手順と同じように行います。
- 仮説を立てる
- 有意水準を設定
- 適切な検定統計量を決める
- 棄却ルールを決める
- 検定統計量をもとに結論を出す
1 仮説を立てる
:調査した血液型分布は日本人の血液型分布と一致する
:調査した血液型分布は日本人の血液型分布と一致しない
2 有意水準を設定
3 適切な検定統計量を決める
理論値からの実測値のずれを2乗したものを、理論値の値で割り、和をとります。
今回の例では情報をまとめると以下のようになります。
A型 | B型 | O型 | AB型 | |
---|---|---|---|---|
理論値 | ||||
実測値 |
4 棄却ルールを決める
この検定で使用する分布は自由度のカイ二乗分布です。また、適合度検定は片側検定で行います。
さて、統計数値表から
となります。
5 検定統計量をもとに結論を出す
さて、結論を出しましょう。今回で言えば、有意水準は、P値はより、有意水準において、を棄却し、対立仮説を採択します。
つまり、「調査した血液型分布は日本人の血液型分布と一致しない」と言えます。
下記のグラフは、カイ二乗分布をわかりやすく大雑把に拡大した図なので、本物のカイ二乗分布のグラフとは違うことに注意してください。
まとめ
用語 | 意味 |
---|---|
適合度の検定 | 実測度数がある特定の分布に適合(一致)するかどうかを検定すること |