とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.42〜t検定〜

明けましておめでとうございます。

こちらのブログも月1回のペースであげれば十分じゃね?というより頑張っている方じゃね?と最近思うようになってきた私です。

私の中では仕事が忙しいからブログを更新・投稿する頻度が少ないと目を背けているわけですが、実際のところ、ソーシャルゲームに2時間ぐらい費やして時間がなくなっているのでその時間をこちらに当てればいいわけです。

ですので、「仕事が忙しいから」はただの言い訳です。

まぁ人ってやりたくないことに対して言い訳を作るのが得意ですから。

でもやりたくないことでもやってみると、意外と進捗出せたりするんですよね〜。結局は、たとえ面倒なことであってもやるかやらないのかに落ち着くんだと思います。

さてさて、どうでもいい話から始まりましたが、今回は t検定について簡単に触れていきます。

検定の流れ

前回は検定についてざっくりと話しただけでした。ここで、検定を行う手順について軽く説明します。

  1. 仮説を立てる
  2. 有意水準を設定する
  3. 適切な検定統計量を決める
  4. 棄却ルールを決める
  5. 検定統計量をもとに結論を出す

上記の順について、例題をもとに見ていきましょう。例題は例によって統計Webさんからお借りします。

例題

ある工場では部品Aを製造しています。製造された部品Aの中からランダムに10個を選び長さを測定したところ、平均値は7.2cm、標準偏差は0.2cmでした。部品Aの長さが正規分布に従う時、この工場で製造している部品Aの長さは7.0cmと言えるでしょうか?

1. 仮説を立てる

まずは帰無仮説 H_0と対立仮説 H_1を立てます。

 H_0:部品Aの長さは7.0cmである

 H_1:部品Aの長さは7.0cmではない

2. 有意水準を設定する

帰無仮説 H_0を棄却するための基準となる確率です。
有意水準を含めた検定の考え方としては以下のようになります。

ある仮説 Aに対して、有意水準を仮に 1\%として検定を行う
→ 行った結果、仮説 Aが起きた確率が 0.5\%だった
有意水準よりも小さい確率が起こった
→ つまり、仮説 Aが非常に稀な確率で起こった
→ こんなに稀なことが起こったのは何か有意な差(背景に意図した何か)があるからであり、偶然で起こったとは考えにくい
→ 偶然ではないため仮説 Aは棄却され、対立仮説 \bar{A}が採択される

さて、話を戻し、例題では有意水準 \alpha = 0.05とします。

3. 適切な検定統計量を決める

ここで言う検定統計量というのは、帰無仮説が正しいと仮定した時、観測した事象よりも稀なことが起こる確率を計算するための値などです。具体的には母分散が既知なら正規分布の値、未知なら t分布の値になります。

さて、この例題では母分散が未知なので、不偏分散 s ^2を用いる統計量 tを使います。ここで、 \bar{x}をデータの平均、 \muを母平均、 nをサンプルサイズ、 s ^2を不偏分散として

 \displaystyle t = \frac{\bar{x} - \mu}{\sqrt{\frac{s ^2}{n}}}

 \displaystyle  = \frac{\bar{x} - \mu}{\frac{s}{\sqrt{n}}}

4. 棄却ルールを決める

この検定で使用する分布は t分布です。よって自由度は

 n - 1 = 10 -1 = 9

となります。

また、この工場で製造する部品Aの長さが7.0cmであるかどうかを調べることが目的なので、両側検定を行います。

数値統計表から t_{0.025}(9)の値を読み取ると、

 t_{0.025}(9) = 2.262

となります。で、この数値は何かというと、 t分布の有意水準 5\%の値を取るときの tの値です。

つまり、次の手順で求める検定統計量が t_{0.025}(9) = 2.262を超えれば(検定統計量の確率は小さいため)帰無仮説を棄却、超えなければ(検定統計量の確率は大きいため)帰無仮説を採択するための基準になります。

5. 検定統計量をもとに結論を出す

3で求めた式

 \displaystyle  t = \frac{\bar{x} - \mu}{\frac{s}{\sqrt{n}}}

より、

 \displaystyle  t = \frac{7.2 - 7.0}{\frac{0.2}{\sqrt{10}}}

 \displaystyle  \fallingdotseq 3.16 > t_{0.025}(9) = 2.262

よって、求めた検定統計量の値は有意水準 t_{0.025}(9)の値を超えたため、

有意水準 5\%において、帰無仮説を棄却し、対立仮説を採択する

という結果になります。よって、「この工場で製造している部品Aの長さは7.0cmではない」と結論づけられます。

2標本t検定

2標本t検定というは、2つの独立した母集団があり、それぞれの母集団から抽出した標本の平均に差があるかどうかを検定するものです。
対応のあるデータか、対応のないデータかで検定統計量の算出方法が変わってきます。

対応がない場合の2標本t検定の検定統計量の算出方法

母分散が不明の時、
1群目の標本平均を \bar{x}_1、母平均 \mu_1、サンプルサイズを n_1

2群目の標本平均を \bar{x}_2、母平均 \mu_2、サンプルサイズを n_2 として表すと、

f:id:kurasher:20220110160024p:plain

となります。

ここで、帰無仮説である「母平均が等しい」という仮説が正しいとすると、 \mu_1 - \mu_2 = 0 となるため、

f:id:kurasher:20220110160254p:plain

となります。またここで、 s ^2

 \displaystyle s ^2 = \frac{(n_1 - 1)s_1 ^2 + (n_2 - 1)s_2 ^2}{n_1 + n_2 - 2}

で表されます。

対応がある場合の2標本t検定の検定統計量の算出方法

差を用いると実質は1標本の検定となるため、

 \displaystyle t = \frac{\bar{x}_d - \mu_d}{\frac{s}{\sqrt{n}}}

となります。また、ここで帰無仮説は「対応のあるデータの差の平均は0である」となります。

まとめ

用語 意味
2標本t検定 2つの独立した母集団があり、それぞれの母集団から抽出した標本の平均に差があるかどうかを検定