標本分散

得られたデータの平均を $\bar{x}$ 、個々のデータを $x_i (i = 1, 2, \dots, n)$ 、サンプルサイズを $n$ とすると、標本分散 $\hat{\sigma} ^2$ は

$\displaystyle \hat{\sigma} ^2 = \frac{1}{n} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2$

と表される。

ただし、標本分散は一致推定量ではあるものの、不偏推定量ではない。

コラム：一致推定量/不偏推定量とは

前回の記事で若干触れたといえば触れたのですが。
一言でいえば、サンプル数を増やしまくれば、ほぼ真の値を予測できるというものです。

反対に不偏推定量は、サンプルの数は一切関係なく、予測値の平均値は、真の値に一致するというものです。

標本分散の代わりに、標本分散の期待値が母分散に一致するように $\displaystyle \frac{n}{n-1}$ をかけたもの。不偏分散 $\displaystyle s ^2$ は一致性と普遍性を持つ推定量である。

$\displaystyle s ^2 = \frac{n}{n-1} \hat{\sigma} ^2 = \frac{1}{n-1} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2$

ちなみに、標本分散と不偏分散の使い分けとしては、母集団すべてのデータを使って求めたものが標本分散となります。

一方、不偏分散は母集団のデータから無作為に取り出したデータから求めたものになります。

不偏分散の平方根のうち、正の数値

$\displaystyle s = \sqrt{\frac{1}{n-1} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2 }$

$standard error$ とも書きます。
推定量の標準偏差で、標本から得られる推定量そのもののばらつき（精度）を表すもの。
一般的に標本平均の標準偏差を意味する。

$\displaystyle SE = \frac{s}{\sqrt{n}} = \frac{\sqrt{\frac{1}{n-1} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2 }}{\sqrt{n}}$

用語	意味
標本分散	$\displaystyle \hat{\sigma} ^2 = \frac{1}{n} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2$
不偏分散	$\displaystyle \hat{s} ^2 = \frac{1}{n-1} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2$
標準偏差	$\displaystyle s = \sqrt{\frac{1}{n-1} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2 }$
標準偏差	$\displaystyle SE = \frac{s}{\sqrt{n}} = \frac{\sqrt{\frac{1}{n-1} \sum_{i=1} ^{n} (x_i - \bar{x}) ^2 }}{\sqrt{n}}$