とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学における基礎的な用語集vol.2 ~度数分布とヒストグラム~

統計を学ぶ上で基礎的な用語をまとめてみました。全部を頭に入れる必要はありませんが、知っておくとかなり便利ですし、データ分析をする上では避けて通れないかと思います。

説明変数

因果関係における原因、関数における入力、 y = f(x) xのこと。
予測変数、独立変数とも呼ばれます。

目的変数

因果関係における結果、関数における出力、 y = f(x) yのこと。
結果変数、従属変数、基準変数とも呼ばれます。

度数分布

個体の持つデータをいくつかの階級に分けたときに、ある階級に含まれるデータを持つ個体の数を度数と呼び、度数と階級を対応させたものを度数分布と呼びます。

例えば、ここに以下のようなデータが得られたとします(適当に作ったので数値に特に意味はありません。)
f:id:kurasher:20200517081029p:plain

このデータを下のような表に直すと以下のようになります。
この表のことを度数分布表と呼びます。

階級 階級値 度数 相対度数 累積相対度数
 -3 \sim -2  -2.5  1  0.02  0.02
 -2 \sim -1  -1.5  7  0.14  0.16
 -1 \sim 0  -0.5  14  0.28  0.44
 0 \sim 1  0.5  17  0.34  0.78
 1 \sim 2  1.5  9  0.18  0.96
 2 \sim 3  2.5  2  0.04  1.0



度数分布表に出てきた用語をまとめておきましょう。

用語 説明
階級 度数を集計するための区間
階級値 その階級を代表する値のこと。階級の真ん中の値
度数 その階級のデータの個数
相対度数 各階級に含まれる個体数の全観測数に対する割合
累積相対度数 その度数までの累積和

ヒストグラム

度数分布表をグラフにしたもの。
先ほどのデータを例に取ると、ヒストグラムは以下のようになります。 f:id:kurasher:20200517083839j:plain

パレート図

ヒストグラムと累積相対度数の折れ線グラフを複合した図。
累積相対度数は割合で表されます。
f:id:kurasher:20200517092935j:plain

コラム:階級幅の決め方は?

階級の幅って、決め方によっては分布の形がおかしくなったり、みづらかったりします。それを防ぐためには適切な幅を決めなければなりません。が、実は決め方にはルールがありません(要はグフラフを作成する人の主観です)。

とはいえ、さすがに主観だけで決めるのは嫌だという方もいらっしゃると思うので、スタージェスの公式というものを紹介します。
スタージェスの公式を使うことで、目安となる階級の数を算出してくれます。
階級の数は以下の式で求めることが出来ます。

 階級の数 = 1 + \log_{2} n

ここで、 nはデータ数です。

コラム:ジニ係数

偏りや不均等さを数値で表したもの。 0\sim1の値を取り、 1に近いほど偏りが大きく、 0に近いほど偏りが小さくなります。

f:id:kurasher:20200517100008p:plain

上図の黒線を完全平等線、赤線をローレンツ曲線と言います。黒線と赤線の間の面積を2倍した面積がジニ係数にあたります。

ジニ係数の求め方

f:id:kurasher:20200517100558p:plain

  1. 完全平等線までの面積(三角形)を求める。
  2. ①、②、③の面積を求める
  3.  \{三角形の面積-(① + ② + ③) \}\times 2

以上でジニ係数を求めることが出来ます。最後に2をかけることを忘れないようにしましょう。