とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.38~カイ2乗分布~

今回の記事はカイ2乗分布です。ここまで来ると、データサイエンス系の仕事で扱うか研究で扱うか、趣味で扱うかぐらいでしか出てこないように思います...。

カイ二乗分布とは

 z_1, z_2, \dots, z_kが互いに独立で標準正規分布 N(0, 1)に従う確率変数である時、次の式から算出される自由度 k \chi ^2 (カイ2乗)が従う確率分布のこと。

 x ^2 = z_1 ^2 + z_2 ^2 + \dots + z_k ^2

自由度が kのとき、カイ二乗分布確率密度関数

 0 \leqq xの時、

 \displaystyle  f(x; k) = \frac{1}{2 ^\frac{k}{2} \Gamma\left(\frac{k}{2}\right)} \exp \left(-\frac{x}{2}\right) x ^{\frac{k}{2} - 1}

 x < 0

 \displaystyle  f(x; k) = 0

である。

ここで、 \Gammaはガンマ関数のこと(ガンマ関数の説明は省きます)。

カイ二乗分布の性質

ここまで簡単にカイ二乗分布を説明してきましたが、主な使い所としてはカイ二乗分布は母分散の区間推定や適合度の検定、独立性の検定を行う際に使われます。

ここでは以下4つのカイ二乗分布の性質を簡単に紹介していきます(説明というかただの紹介というか...)。

  1. 期待値と分散
  2. 再生性
  3. 正規分布に従う母集団からの無作為標本
  4. カイ二乗分布と指数分布の関係

期待値と分散

期待値を E[X]、分散を V[X]とすると、

 E[X]=k

 V[X]=2k

となります。

再生性

2つの確率変数 X_1 X_2がそれぞれ独立に自由度 k_1 k_2カイ二乗分布 \chi ^2(k_1) \chi ^2(k_2)に従うとき、

 X_1 + X_2は自由度 k_1 + k_2カイ二乗分布 \chi ^2(k_1 + k_2)に従う。

正規分布に従う母集団からの無作為標本

確率変数 X_1, X_2, \dots, X_kがそれぞれ独立に正規分布 N(\mu, \sigma ^2)に従うとき、次の式から算出される値は自由度 kカイ二乗分布に従う。

 \displaystyle \sum_{i=1} ^{k} \left( \frac{X_i - \mu}{\sigma} \right) ^2 〜 \chi ^2(k)

また、この式を展開して得られる次の式の値は自由度 k-1カイ二乗分布に従う。

 \displaystyle \sum_{i=1} ^{k} \left( \frac{X_i - \bar{X}}{\sigma} \right) ^2 = \frac{\left( k-1 \right) s ^2}{\sigma ^2} 〜  \chi ^2(k-1)

ここで、 \bar{X}は標本平均、 s ^2は不偏分散です。

カイ二乗分布と指数分布の関係

自由度2のカイ二乗分布 \lambda = \frac{1}{2}の指数分布と一致する。

 \displaystyle f(x; 2) = \frac{1}{2 ^\frac{2}{2} \Gamma\left( \frac{2}{2}\right)} \exp \left(-\frac{x}{2} \right) x ^{\frac{2}{2} - 1}

 \displaystyle  = \frac{1}{2} \exp \left( - \frac{x}{2} \right)

母分散の信頼区間の求め方

上記で母分散の区間推定などにカイ二乗分布が使われることを紹介しました。ここでは簡単に母分散の信頼区間を求める過程を簡単にまとめます(95%信頼区間とします)。

1 標本の不偏分散を求める

以下で求めます。

 \displaystyle s ^2 = \frac{1}{n-1}\sum_{i=1} ^{n} (x_i - \bar{x}) ^2

2 使用するカイ二乗分布の自由度を決める

 サンプルサイズ-1で求められます。

 自由度 = (n-1)

3 上側2.5%点と下側2.5%点を調べる

統計量 \frac{(n-1) s ^2}{\sigma ^2}カイ二乗分布の95%の面積にあれば良いので、カイ二乗分布表から自由度 (n-1)における上側2.5%点と下側2.5%点を調べる。

 \displaystyle \chi ^2 _ {0.095} (n-1) \leqq \frac{(n-1)s ^2}{\sigma ^2} \leqq  \chi ^2 _ {0.025} (n-1)

4 信頼区間を求める

求めたいのは母分散であるため、母分散 \sigma ^2について解けば良いことになります。

 \displaystyle \chi ^2 _ {0.095} (n-1) \leqq \frac{(n-1)s ^2}{\sigma ^2} \leqq  \chi ^2 _ {0.025} (n-1)

 \displaystyle \frac{1}{\chi ^2 _ {0.095} (n-1)} \leqq \frac{\sigma ^2}{(n-1)s ^2} \leqq  \frac{1}{\chi ^2 _ {0.025} (n-1)}

 \displaystyle \frac{(n-1)s ^2}{\chi ^2 _ {0.095} (n-1)} \leqq \sigma ^2 \leqq  \frac{(n-1)s ^2}{\chi ^2 _ {0.025} (n-1)}

まとめ

用語 意味
カイ二乗分布  z_1, z_2, \dots, z_kが互いに独立で標準正規分布 N(0, 1)に従う確率変数である時、次の式から算出される自由度 k \chi ^2 (カイ2乗)が従う確率分布
確率密度関数  \displaystyle  f(x; k) = \frac{1}{2 ^\frac{k}{2} \Gamma\left(\frac{k}{2}\right)} \exp \left(-\frac{x}{2}\right) x ^{\frac{k}{2} - 1} ただし 0 \leqq x
カイ二乗分布の性質1  E[X]=k V[X]=2k
カイ二乗分布の性質2 2つの確率変数 X_1 X_2がそれぞれ独立に自由度 k_1 k_2カイ二乗分布 \chi ^2(k_1) \chi ^2(k_2)に従うとき、
 X_1 + X_2は自由度 k_1 + k_2カイ二乗分布 \chi ^2(k_1 + k_2)に従う。
カイ二乗分布の性質3 確率変数 X_1, X_2, \dots, X_kがそれぞれ独立に正規分布 N(\mu, \sigma ^2)に従うとき、次の式から算出される値は自由度 kカイ二乗分布に従う。
 \displaystyle \sum_{i=1} ^{k} \left( \frac{X_i - \mu}{\sigma} \right) ^2 〜 \chi ^2(k)
カイ二乗分布の性質4 自由度2のカイ二乗分布 \lambda = \frac{1}{2}の指数分布と一致する。