今回は独立性の検定です。
独立性の検定
2つ以上の分類基準を持つクロス集計表において、分類基準に関連があるかどうかを検定すること。このような場合もカイ二乗分布による検定を行います。
例題
ランダムに得られた男女各100人の血液型について次のようなデータが得られた。この結果から、性別と血液型に関連があるといえるか?
血液型 | A型 | B型 | O型 | AB型 | 計 |
---|---|---|---|---|---|
男性 | |||||
女性 | |||||
合計 |
独立性の検定の手順
独立性の検定ですが、(仮説)検定を行う以上、今まで見てきた下記手順と同じように行います。
- 仮説を立てる
- 有意水準を設定
- 適切な検定統計量を決める
- 棄却ルールを決める
- 検定統計量をもとに結論を出す
1 仮説を立てる
:性別と血液型は独立(関連がない)
:性別と血液型は独立ではない
2 有意水準を設定
3 適切な検定統計量を決める
独立性の検定ではカイ二乗分布に従うカイ二乗統計量を使います。ですが、適合度の検定でも見たように理論値が必要です。そこでここでは、理論値を算出する必要があります。
ここでは、仮説より男女の血液型は独立であることから、理論値は男女でそれぞれの血液型がとなっていることです。
ここで、列目の度数の合計を 、行目の度数の合計を、全ての度数の合計をとすると、理論値は以下の式から求められます。
例えば、男性のA型の場合の理論値は
となります。このようにして全ての理論値を求めると、
血液型 | A型 | B型 | O型 | AB型 | 計 |
---|---|---|---|---|---|
男性 | |||||
女性 | |||||
合計 |
となります。
理論値からの実測値のずれを2乗したものを、理論値の値で割り、和をとります。
今回の例では以下のようになります。
4 棄却ルールを決める
のクロス集計表(縦行、横列)の場合、自由度はのカイ二乗分布を用いて検定を行います。
この場合、
となります。独立性の検定は片側検定で行うため、統計数値表からとなります。
5 検定統計量をもとに結論を出す
さて、結論を出しましょう。今回で言えば、有意水準は、P値はより、有意水準において、を棄却し、帰無仮説を採択します。
つまり、「性別と血液型は独立ではないとは言えない(関連があるとは言えない)」と言えます。
下記のグラフは、カイ二乗分布をわかりやすく大雑把に拡大した図なので、本物のカイ二乗分布のグラフとは違うことに注意してください。
まとめ
用語 | 意味 |
---|---|
独立性の検定 | 2つ以上の分類基準を持つクロス集計表において、分類基準に関連があるかどうかを検定すること |
理論値の求め方 | 列目の度数の合計を 、行目の度数の合計を、全ての度数の合計をとすると、 |