とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学における基礎的な用語集~番外編~

この記事では目にすることは少ないものの、知っておいた方が良いと思われる用語集をまとめたものです。

幾何平均

割合や比率で変化するものに対して使う。
 \overline{x} = \sqrt[n]{x_1 \times x_2 \times \dots \times x_n}

過去3年間で家賃が 20\% 10\% 15\%上昇したとき、

 \overline{x} = \sqrt[3]{1.2 \times 1.1  \times 1.15} = 1.149

 114.9\%、つまり1年で平均14.9\%上昇したことになります。

調和平均

時速の平均などに利用。

 \displaystyle \frac{1}{\overline{x_H}} = \frac{\frac{1}{x_1} + \frac{1}{x_2} + \dots + \frac{1}{x_n}}{n}

 \displaystyle \overline{x_H} = \frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \dots + \frac{1}{x_n}}

行き時速 60km、帰り 80kmでドライブしたときの平均時速は

 \displaystyle \overline{x_H} = \frac{2}{\frac{1}{60} + \frac{1}{80}} = 68.57[km/h]

刈り込み平均

データを小さい順(昇順)に並べたとき、小さい側と大きい側からそれぞれ指定した個数を除き、残ったデータのみから求める平均

 \displaystyle \overline{x_k} = \frac{1}{n-2k} \sum_{i=k+1}^{n-k} x_i

...…何に使うんでしょう?私は分からないです……。

幹葉図

度数分布のグラフ表現の一つ。階級値が幹で、階級の次の位の数が葉で表されます。ヒストグラムでは実際の値までは分からないのですが、幹葉図ではそれが分かります。また、第一四分位数、中央値、第三四分位数を求めることもできます。

例.  \{27, 30, 33, 33, 37, 41, 45\}の場合

度数
1 2 7
4 3 0 3 3 7
2 4 1 5

歪度(わいど)(統計Web版)

分布が正規分布からどれだけ歪んでいるのかを表す統計量で、左右対称性を示す指標
各データ (x_1, x_2, \dots, x_n)の平均値を \overline x、サンプルサイズを n標準偏差 \sigmaとすると、

 \displaystyle \frac{n}{(n-1)(n-2)} \sum_{i=1} ^{n} \left(\frac{x_i - \overline x}{\sigma}\right) ^3

と表せる。

右に裾が長い場合

f:id:kurasher:20200810170229p:plain

上記の図のような分布を右に裾が長い分布という。また、右に歪んだ分布、左に偏った分布ともいう。
右に裾が長い分布の場合、歪度は

 歪度 > 0

となる。

左に裾が長い場合

f:id:kurasher:20200810170848p:plain

上記の図のような分布を左に裾が長い分布という。また、左に歪んだ分布、右に偏った分布ともいう。
左に裾が長い分布の場合、歪度は

 歪度 < 0

となる。

ちなみに、 歪度= 0となるのは左右対称の時だけ

尖度(せんど)(統計Web版)

分布が正規分布からどれだけとがっているかを表す統計量で、山の尖り度と裾の広がり度を示す指標
各データ (x_1, x_2, \dots, x_n)の平均値を \overline x、サンプルサイズを n標準偏差 \sigmaとすると、

 \displaystyle \frac{n(n+1)}{(n-1)(n-2)(n-3)} \sum_{i=1} ^n \frac{(x_i - \overline x) ^4}{\sigma ^4} - \frac{3(n-1) ^2}{(n-2)(n-3)}

と表される。

正規分布よりとがった分布の時

f:id:kurasher:20200810174735p:plain

上記の図で、黒の実線が標準正規分布、赤い実線が標準正規分布よりとがった分布を表しています。
正規分布よりとがった分布(データが平均付近に集中し、分布の裾が思い)時には尖度は正の値を取る。

 尖度 > 0

正規分布より扁平な分布

f:id:kurasher:20200810175820p:plain

上記の図で、黒の実線が標準正規分布、赤い実線が標準正規分布より扁平な分布を表しています。
正規分布より扁平な分布(データが平均付近から散らばり、分布の裾が軽い)時には尖度は負の値を取る。

 尖度 < 0

歪度(高校数学の美しい物語)

確率変数 Xが従う分布の歪度は以下のように定義される。

 \displaystyle \frac{E[(X - \mu) ^3]}{\sigma ^3}

歪度は平均から遠いところが平均に寄与する(外れ値が影響) 。この考えは重要で、以下に説明するように理解の手助けになるかと思います。

右に裾が長い場合

歪度は平均から遠いところが平均に寄与するため、

左側にコブ
 \Leftrightarrow 右側に大きく離れたデータがある
 \Leftrightarrow \displaystyle \frac{E[(X - \mu) ^3]}{\sigma ^3} > 0

より、 歪度 > 0となる。

左に裾が長い場合

歪度は平均から遠いところが平均に寄与するため、

右側にコブ
 \Leftrightarrow 左側に大きく離れたデータがある
 \Leftrightarrow \displaystyle \frac{E[(X - \mu) ^3]}{\sigma ^3} < 0

より、 歪度 < 0となる。

尖度(高校数学の美しい物語)

確率変数 Xが従う分布の尖度は以下のように定義される。

 \displaystyle \frac{E[(X - \mu) ^4]}{\sigma ^4} - 3

歪度・尖度の特徴

歪度、尖度は \sigmaで正規化しているため、定数倍や平行移動で値は変わらない

つまり、 Xが従う分布の歪度、尖度は aX+bが従う分布の歪度、尖度と等しい( \displaystyle \frac{E[ (X - \mu) ^n ]}{\sigma ^n}は不変)

平行移動の場合

 E[(X - \mu) ^n] \sigmaの値は不変

定数倍

 Xに対して aXを考えると、

 E[(aX - a \mu) ^n] = a ^nE[(X - \mu) ^n] \sigma ^n \rightarrow a ^n \sigma ^n

となる。