とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.31~標本分散と不偏分散~

今回は標本分散と不偏分散です。

やはりエンジニア(といいつつ、最近はプログラムを書くことが多いのでプログラマーなのか?)の端くれなので、テック系の記事が受けますかね...?

標本分散

得られたデータの平均を \bar{x}、個々のデータを x_i (i = 1, 2, \dots, n)、サンプルサイズを n とすると、標本分散 \hat{\sigma} ^2

 \displaystyle \hat{\sigma} ^2  = \frac{1}{n} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2

と表される。

ただし、標本分散は一致推定量ではあるものの、不偏推定量ではない。

コラム:一致推定量/不偏推定量とは

前回の記事で若干触れたといえば触れたのですが。
一言でいえば、サンプル数を増やしまくれば、ほぼ真の値を予測できるというものです。

反対に不偏推定量は、サンプルの数は一切関係なく、予測値の平均値は、真の値に一致するというものです。

不偏分散

標本分散の代わりに、標本分散の期待値が母分散に一致するように \displaystyle \frac{n}{n-1}をかけたもの。不偏分散 \displaystyle s ^2一致性と普遍性を持つ推定量である。

 \displaystyle s ^2  = \frac{n}{n-1} \hat{\sigma} ^2  = \frac{1}{n-1} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2

ちなみに、標本分散と不偏分散の使い分けとしては、母集団すべてのデータを使って求めたものが標本分散となります。

一方、不偏分散は母集団のデータから無作為に取り出したデータから求めたものになります。

標準偏差

不偏分散の平方根のうち、正の数値

 \displaystyle s = \sqrt{\frac{1}{n-1} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2 }

標準誤差

 standard errorとも書きます。
定量標準偏差で、標本から得られる推定量そのもののばらつき(精度)を表すもの。
一般的に標本平均の標準偏差を意味する。

 \displaystyle SE = \frac{s}{\sqrt{n}} = \frac{\sqrt{\frac{1}{n-1} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2 }}{\sqrt{n}}

まとめ

用語 意味
標本分散  \displaystyle \hat{\sigma} ^2  = \frac{1}{n} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2
不偏分散  \displaystyle \hat{s} ^2 = \frac{1}{n-1} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2
標準偏差  \displaystyle s = \sqrt{\frac{1}{n-1} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2 }
標準偏差  \displaystyle SE = \frac{s}{\sqrt{n}} = \frac{\sqrt{\frac{1}{n-1} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2 }}{\sqrt{n}}