明けましておめでとうございます。
こちらのブログも月1回のペースであげれば十分じゃね?というより頑張っている方じゃね?と最近思うようになってきた私です。
私の中では仕事が忙しいからブログを更新・投稿する頻度が少ないと目を背けているわけですが、実際のところ、ソーシャルゲームに2時間ぐらい費やして時間がなくなっているのでその時間をこちらに当てればいいわけです。
ですので、「仕事が忙しいから」はただの言い訳です。
まぁ人ってやりたくないことに対して言い訳を作るのが得意ですから。
でもやりたくないことでもやってみると、意外と進捗出せたりするんですよね〜。結局は、たとえ面倒なことであってもやるかやらないのかに落ち着くんだと思います。
さてさて、どうでもいい話から始まりましたが、今回は検定について簡単に触れていきます。
検定の流れ
前回は検定についてざっくりと話しただけでした。ここで、検定を行う手順について軽く説明します。
- 仮説を立てる
- 有意水準を設定する
- 適切な検定統計量を決める
- 棄却ルールを決める
- 検定統計量をもとに結論を出す
上記の順について、例題をもとに見ていきましょう。例題は例によって統計Webさんからお借りします。
例題
ある工場では部品Aを製造しています。製造された部品Aの中からランダムに10個を選び長さを測定したところ、平均値は7.2cm、標準偏差は0.2cmでした。部品Aの長さが正規分布に従う時、この工場で製造している部品Aの長さは7.0cmと言えるでしょうか?
1. 仮説を立てる
まずは帰無仮説と対立仮説を立てます。
:部品Aの長さは7.0cmである
:部品Aの長さは7.0cmではない
2. 有意水準を設定する
帰無仮説を棄却するための基準となる確率です。
有意水準を含めた検定の考え方としては以下のようになります。
ある仮説に対して、有意水準を仮にとして検定を行う
→ 行った結果、仮説が起きた確率がだった
→ 有意水準よりも小さい確率が起こった
→ つまり、仮説が非常に稀な確率で起こった
→ こんなに稀なことが起こったのは何か有意な差(背景に意図した何か)があるからであり、偶然で起こったとは考えにくい
→ 偶然ではないため仮説は棄却され、対立仮説が採択される
さて、話を戻し、例題では有意水準とします。
3. 適切な検定統計量を決める
ここで言う検定統計量というのは、帰無仮説が正しいと仮定した時、観測した事象よりも稀なことが起こる確率を計算するための値などです。具体的には母分散が既知なら正規分布の値、未知なら分布の値になります。
さて、この例題では母分散が未知なので、不偏分散を用いる統計量を使います。ここで、をデータの平均、を母平均、をサンプルサイズ、を不偏分散として
4. 棄却ルールを決める
この検定で使用する分布は分布です。よって自由度は
となります。
また、この工場で製造する部品Aの長さが7.0cmであるかどうかを調べることが目的なので、両側検定を行います。
数値統計表からの値を読み取ると、
となります。で、この数値は何かというと、分布の有意水準の値を取るときのの値です。
つまり、次の手順で求める検定統計量がを超えれば(検定統計量の確率は小さいため)帰無仮説を棄却、超えなければ(検定統計量の確率は大きいため)帰無仮説を採択するための基準になります。
5. 検定統計量をもとに結論を出す
3で求めた式
より、
よって、求めた検定統計量の値は有意水準の値を超えたため、
という結果になります。よって、「この工場で製造している部品Aの長さは7.0cmではない」と結論づけられます。
2標本t検定
2標本検定というは、2つの独立した母集団があり、それぞれの母集団から抽出した標本の平均に差があるかどうかを検定するものです。
対応のあるデータか、対応のないデータかで検定統計量の算出方法が変わってきます。
対応がない場合の2標本t検定の検定統計量の算出方法
母分散が不明の時、
1群目の標本平均を、母平均、サンプルサイズを、
2群目の標本平均を、母平均、サンプルサイズを として表すと、
となります。
ここで、帰無仮説である「母平均が等しい」という仮説が正しいとすると、 となるため、
となります。またここで、は
で表されます。
対応がある場合の2標本t検定の検定統計量の算出方法
差を用いると実質は1標本の検定となるため、
となります。また、ここで帰無仮説は「対応のあるデータの差の平均は0である」となります。
まとめ
用語 | 意味 |
---|---|
2標本検定 | 2つの独立した母集団があり、それぞれの母集団から抽出した標本の平均に差があるかどうかを検定 |