とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学における基礎的な用語集vol.6~平均値に関連する用語のお話~

偏差

平均値と各データの差のこと。
例えばデータ \{1, 2, 3, 4, 5\}の平均は 3です。この平均 3と各データの値との差を計算すると、

 -1, -2, 0, 1, 2

となり、これが偏差にあたります。
上の偏差を見てもらえば分かると思いますが、偏差の和は常にゼロになります。これを一般的に示してみましょう。

偏差の和は常にゼロ?

今、各データの値が x_1, x_2, \dots, x_n n個のデータがあるとします。この時の平均値を \overline{x}と表します。
ここで偏差の和を計算すると、

f:id:kurasher:20200522214347p:plain

となります。ここで、 \displaystyle \overline{x} = \frac{1}{n} \sum_{i = 1}^{n} x_iより、

f:id:kurasher:20200522214530p:plain

となり、偏差の和が常にゼロになることが分かりました。

平均偏差

平均値から各データの差の絶対値の平均のこと。
データ \{1, 2, 3, 4, 5\}を例にすると、平均偏差は \{2, 1, 0, 1, 2\}を足し合わせて、要素の数で割れば求まりますので、

\displaystyle \frac{2 + 1 + 0 + 1 + 2}{5} = \frac{6}{5} = 1.2

になります。

分散

それぞれのデータと平均値の差を2乗したものの平均。平均を \overline{x}とすると、

 \displaystyle \frac{1}{n} \sum_{i=1}^{n} {(x_i - \overline{x})}^2

で計算できます。数式を見て分かりますが、2乗を足しているので、分散の値は必ず0以上になります。


もし分散が負の値になった場合どこかで間違えているので、もう一度計算し直しましょう。(分散を手計算で求める場面は、統計検定を受けるときか、高校、大学の定期試験ぐらいですかね?)

(※統計学に詳しい方は分散はさらに母分散、不偏分散があることをご存知かと思います。のちのち、このブログで紹介しますのでしばらくお待ちください。)

標準偏差

分散の正の平方根のこと。

 \displaystyle \sqrt{  \frac{1}{n} \sum_{i=1}^{n} {(x_i - \overline{x})}^2 }

標準偏差も分散もどちらもデータがどの程度ばらついているかを表す指標です。値が大きいほどばらつきが大きいことを表しています。

変動係数

標準偏差を平均値で割った値のこと。
単位の異なるデータのばらつきや、平均値に対するデータとばらつきの関係を相対的に評価する際に用います(「何か」と「何か」のデータのばらつき具合を相対的に比較するときに使用)。

変動係数は単位を持たない(無次元)の数値です。
平均を \overline{x}標準偏差 \sigmaとすると、

変動係数 \displaystyle = \frac{\sigma}{\overline{x}}

となります。

コラム:変動係数を使うコツ

  1. 平均値に対して標準偏差比例関係にあるものに対して使用
  2. 変動係数はすべての観測値が正であるものについて定義される。つまり、観測値が負や0の値を取ることは前提としていないため、比例尺度には使えるが、間隔尺度では参考にならない。

また変動係数が小さい場合、標準偏差が小さいということが言えます。
つまり、ばらつきが少なく平均値に密集していることが言えますので、変動係数が小さいほど測定の精度が高いと言えます。

まとめ

今回は平均に関連する用語についてまとめました。以下、簡単にまとめます。

用語 意味
平均値 データをすべて足し、データ数で割ったもの
偏差 各データと平均との差。偏差の和は常にゼロ。
平均偏差 偏差の絶対値を取った値の平均
分散 各データと平均値の差を2乗したものの平均。常にゼロ以上の値
標準偏差 分散の正の平方根のこと。
変動係数 標準偏差を平均値で割った値のこと。単位の違うデータのばらつき
具合を比較するときに使用