とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.47〜適合度の検定〜

はてさて、今回は適合度のお話です。

適合度の検定とは

調査によって得られたクロス集計表がある場合、実測度数がある特定の分布に適合(一致)するかどうかを検定すること。
ここでクロス集計表とは、2つのカテゴリーに属するデータをそれぞれのカテゴリーで同時に分類し、その度数を集計したものをという。

例題

日本の血液型の分布はA、B、O、AB型はそれぞれ、 40 \% 20 \% 30 \% 10 \%であると言われている。ここでランダムに選ばれた100人の血液型のデータでA型55人、B型16人、O型22人、AB型7人だった。この集計したデータは日本人の血液型の分布と同じといえるか?

適合度検定の手順

適合度検定では「理論値」からの「実測値」のずれを算出し、検定を行います。とはいえ、(仮説)検定を行う以上、今まで見てきた下記手順と同じように行います。

  1. 仮説を立てる
  2. 有意水準を設定
  3. 適切な検定統計量を決める
  4. 棄却ルールを決める
  5. 検定統計量をもとに結論を出す

1 仮説を立てる

 H_0:調査した血液型分布は日本人の血液型分布と一致する
 H_1:調査した血液型分布は日本人の血液型分布と一致しない

2 有意水準を設定

 \alpha = 0.05

3 適切な検定統計量を決める

適合度検定ではカイ二乗分布に従うカイ二乗統計量を使います。

理論値からの実測値のずれを2乗したものを、理論値の値で割り、和をとります。

 \displaystyle \chi ^2 = \sum \frac{(実測値-理論値) ^2}{理論値}

今回の例では情報をまとめると以下のようになります。

A型 B型 O型 AB型
理論値  40 \%  20 \%  30 \%  10 \%
実測値  \frac{55}{100}  \frac{16}{100}  \frac{22}{100}  \frac{7}{100}

 \displaystyle \chi ^2 = \frac{(55-40) ^2}{40} + \frac{(16-20) ^2}{20}+ \frac{(22-30) ^2}{30}+ \frac{(7-20) ^2}{20} = 9.458

4 棄却ルールを決める

この検定で使用する分布は自由度 (4-1) = 3カイ二乗分布です。また、適合度検定は片側検定で行います。
さて、統計数値表から

 \displaystyle \chi_{0.05} ^2(3) = 7.815

となります。

5 検定統計量をもとに結論を出す

さて、結論を出しましょう。今回で言えば、有意水準  \chi_{0.05} ^2(3) = 7.815、P値は 9.458より、有意水準 5\%において、 H_0を棄却し、対立仮説を採択します。
つまり、「調査した血液型分布は日本人の血液型分布と一致しない」と言えます。

下記のグラフは、カイ二乗分布をわかりやすく大雑把に拡大した図なので、本物のカイ二乗分布のグラフとは違うことに注意してください。

まとめ

用語 意味
適合度の検定 実測度数がある特定の分布に適合(一致)するかどうかを検定すること