とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.46〜ポアソン分布で考える母比率の検定〜

前回は2項分布を元に母比率の検定を見ていきました。

今回はポアソン分布で考えてみましょう。

例題

1ヶ月間に平均20件の自動車事故が起こる見通しの悪いT字路がある。このT字路にカーブミラーを設置した結果、この1年での事故数は200件だった。カーブミラーの設置により、1ヶ月間の平均事故発生頻度は低下したか?

解答

今回の問題はカーブミラー設置前は1年で  20件 \times 12ヶ月  = 240件、設置後は1年で200件になりました。

1年で40件減ったわけですが、これはカーブミラーのおかげと言えるでしょうか?

しかし、1年で200件以上の事故となると、魔のT字路ですね。カーブミラーの設置以上に信号機を設置した方がいいかもしれません...。

1 仮説を立てる

帰無仮説 H_0:T字路では1ヶ月間に20回事故が起こる

対立仮説 H_1:T字路では1ヶ月間に20回事故が起こるとは言えない

2 有意水準を設定

 \alpha = 0.05とします。

3 適切な検定統計量を決める

事故が起こるという事象は非常に稀な事象なので(この問題においてはそうなのか怪しいですが)、1ヶ月で平均 \lambda回の事故が起こる場所で x回の事故が起こる確率 f(x)ポアソン分布に従います。

確率変数 Xポアソン分布 Po(\lambda)に従う時、期待値 E [X ] = V[ X ] = \lambdaが成り立ちます。

ここで、 Xを1年間の事故数、 x_n (n = 1, ..., 12)を各月の事故数とします。

 X = x_1 + x_2 + ... + x_{12} = 200

となります。またポアソン分布の再生性により Xポアソン分布 Po(n \lambda)に従います。 nは調査を行ったポイント数です。

中心極限定理より、サンプルサイズ nが十分に大きいときには、独立な確率変数の和は正規分布に収束することから、 X正規分布 N(n\lambda, n\lambda)に従うと考えることが出来ます。よって、以下の式は標準正規分布 N(0, 1)に従います。

 \displaystyle z = \frac{X - n\lambda}{\sqrt{n\lambda}}

 Xから1ヶ月の事故数の平均を算出すると、 X / nとなり、サンプルサイズ nが十分に大きいときは X / n正規分布 N(\lambda, \lambda / n)に従うと考えることが出来ます。よって、以下の式も標準正規分布 N(0, 1)に従います。

 \displaystyle z = \frac{\frac{X}{n} - \lambda}{\sqrt{\frac{\lambda}{n}}}

4 棄却ルールを決める

中心極限定理から、この検定で使用する分布は標準正規分布です。今回、事故の発生が改善したか、すなわち、事故の発生回数が20回より少なくなったかを確認したいので、片側検定を行います(20回より多くなったか、小さくなったかを確認したい場合は両側検定になる)。

この時、統計数値表から Z_{0.05}の値は

 Z_{0.025} = 1.645

となります。

5 検定統計量をもとに結論を出す

この例題では、1ヶ月単位での平均に対して1年、すなわち12個分のデータを取得した結果のため、 n = 12となります。1年での事故発生回数は200回だったことから1ヶ月平均だと

 \displaystyle X/ n = 200 / 12 = 16.67

となります。また、 \lambda = 20です。よって、

 \displaystyle z = \frac{\frac{X}{n} - \lambda}{\sqrt{\frac{\lambda}{n}}}

 \displaystyle = \frac{16.67 - 20}{\sqrt{\frac{20}{12}}}

 \displaystyle = -2.579

 P(Z = -2.579) \lt P(1.645)より統計量は棄却域に入りました。

よって、有意水準 5\%において、帰無仮説 H_0を棄却し対立仮説 H_1を採択します。

よって、のT字路では1ヶ月に20回事故が起こるとはいえないので、カーブミラーによって自動車事故の発生数は改善されたと結論づけられます。

まとめ

...信号機設置しましょう。