とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.47〜適合度の検定〜

統計学

はてさて、今回は適合度のお話です。

適合度の検定とは
例題
適合度検定の手順
まとめ

適合度の検定とは

調査によって得られたクロス集計表がある場合、実測度数がある特定の分布に適合（一致）するかどうかを検定すること。
ここでクロス集計表とは、2つのカテゴリーに属するデータをそれぞれのカテゴリーで同時に分類し、その度数を集計したものをという。

例題

日本の血液型の分布はA、B、O、AB型はそれぞれ、 $40 \%$ 、 $20 \%$ 、 $30 \%$ 、 $10 \%$ であると言われている。ここでランダムに選ばれた100人の血液型のデータでA型55人、B型16人、O型22人、AB型7人だった。この集計したデータは日本人の血液型の分布と同じといえるか？

適合度検定の手順

適合度検定では「理論値」からの「実測値」のずれを算出し、検定を行います。とはいえ、（仮説）検定を行う以上、今まで見てきた下記手順と同じように行います。

仮説を立てる
有意水準を設定
適切な検定統計量を決める
棄却ルールを決める
検定統計量をもとに結論を出す

1 仮説を立てる

$H_0$ ：調査した血液型分布は日本人の血液型分布と一致する
$H_1$ ：調査した血液型分布は日本人の血液型分布と一致しない

2 有意水準を設定

$\alpha = 0.05$

3 適切な検定統計量を決める

適合度検定ではカイ二乗分布に従うカイ二乗統計量を使います。

理論値からの実測値のずれを2乗したものを、理論値の値で割り、和をとります。

$\displaystyle \chi ^2 = \sum \frac{(実測値-理論値) ^2}{理論値}$

今回の例では情報をまとめると以下のようになります。

	A型	B型	O型	AB型
理論値	$40 \%$	$20 \%$	$30 \%$	$10 \%$
実測値	$\frac{55}{100}$	$\frac{16}{100}$	$\frac{22}{100}$	$\frac{7}{100}$

$\displaystyle \chi ^2 = \frac{(55-40) ^2}{40} + \frac{(16-20) ^2}{20}+ \frac{(22-30) ^2}{30}+ \frac{(7-20) ^2}{20} = 9.458$

4 棄却ルールを決める

この検定で使用する分布は自由度 $(4-1) = 3$ のカイ二乗分布です。また、適合度検定は片側検定で行います。
さて、統計数値表から

$\displaystyle \chi_{0.05} ^2(3) = 7.815$

となります。

5 検定統計量をもとに結論を出す

さて、結論を出しましょう。今回で言えば、有意水準は $\chi_{0.05} ^2(3) = 7.815$ 、P値は $9.458$ より、有意水準 $5\%$ において、 $H_0$ を棄却し、対立仮説を採択します。
つまり、「調査した血液型分布は日本人の血液型分布と一致しない」と言えます。

下記のグラフは、カイ二乗分布をわかりやすく大雑把に拡大した図なので、本物のカイ二乗分布のグラフとは違うことに注意してください。

まとめ

用語	意味
適合度の検定	実測度数がある特定の分布に適合（一致）するかどうかを検定すること