とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.17~正規分布~

今回のお話は正規分布になります。確率・統計においてザ・王道という分布ですね!

ちなみに、この記事を書いたのが7月になるのですが、今年に入ってすでに半年も過ぎています。時間が経つことの早さを知るとともに、去年の自分より果たしてどれだけ成長しただろうかと考えたりします。たとえ、少しずつでもいいからどうかあの頃の自分よりは成長していてほしいものです。技術的にも、精神的にも。

正規分布とは

統計学における検定や推定、モデルの作成など様々な場面で活躍される連続型確率分布。多くの統計的手法において、データが正規分布に従うことを仮定しています。正規分布は別名ガウス分布とも呼ばれています。

下に、平均が0、分散が 1 ^2正規分布を示します。

f:id:kurasher:20200718201612p:plain

ちなみに、このグラフはRで書きました。ソースコードはこちら。

curve(dnorm(x),-3,3,col="blue", lwd = 3) #col=”blue”は色を青に指定

また、確率変数 X正規分布に従う確率密度関数 f(x)

\displaystyle f(x) = \frac{1}{\sqrt{2 \pi} \sigma} \exp{\left\{- \frac{(x-\mu) ^2}{2\sigma ^2} \right\}}

ただし、 xの定義域は、 -\infty <  x <  \inftyです。

確率変数 Xが平均 \mu標準偏差 \sigma正規分布に従うとき、

 X~N(\mu, \sigma ^2)

と表します。なぜ Nで表すかというと、正規分布は英語で normal \,\, distributionと書くからです。

正規分布の期待値と分散

期待値

 E[X] = \mu

分散

 V[X] = \sigma ^2

正規分布の再生性

 N(\mu_1, \sigma_1 ^2)に従うあるデータと、そのデータとは独立 N(\mu_2, \sigma_2 ^2)に従うデータを足したデータは、 N(\mu_1+\mu_2, \sigma_1 ^2+\sigma_2 ^2)に従う。

何が言いたいかというと、あるデータと、そのデータとは独立な別のデータを足し合わせたものは他の分布(幾何分布や2項分布など)になることなく、正規分布に従うということです。

正規分布の特徴~標準正規分布をもとに~

平均 0標準偏差 1正規分布を特に標準正規分布と言います。式で表すと、

\displaystyle f(x) = \frac{1}{\sqrt{2 \pi}} \exp{\left\{- \frac{x ^2}{2} \right\}}

となります。

また、正規分布連続型の確率分布です。ということは、正規分布の確率 P(x)を求めるということは、正規分布の面積を積分するということと意味が一緒です(参考記事)。

というわけで、標準正規分布 1\sigma分の面積、 2\sigma分の面積、 3\sigma分の面積をそれぞれ計算したときのそれぞれの確率は以下のようになっています。

  1.  -1 <  x <  1の場合、約 68\%
  2.  -2 <  x <  2の場合、約 95\%
  3.  -3 <  x <  3の場合、約 99.7\%

グラフで表すと下のようになります。一番濃い色の面積が約 68\%を表します。さらにこの一番濃い色に、次に濃い色の面積を合わせたものが約 95\%、その次に薄い色の面積を足し合わせた部分が約 99.7\%を表します。

f:id:kurasher:20200718205958p:plain

このグラフはRでは次のように書きます。

curve(dnorm(x),-4,4,col="blue", lwd = 3) #col=”blue”は色を青に指定
xvalu <- seq(-3,3,length=200)
dvalu <- dnorm(xvalu)
polygon(c(xvalu, rev(xvalu)), c(rep(0,200), rev(dvalu)),col="gray80")
xvalu <- seq(-2,2,length=200)
dvalu <- dnorm(xvalu)
polygon(c(xvalu, rev(xvalu)), c(rep(0,200), rev(dvalu)),col="gray50")
xvalu <- seq(-1,1,length=200)
dvalu <- dnorm(xvalu)
polygon(c(xvalu, rev(xvalu)), c(rep(0,200), rev(dvalu)),col="gray20")

ちなみに正規分布の確率を求める場合、わざわざ積分を計算することはありません。すでに計算された標準正規分布という表があり、それを使います。見方や使い方に関しては統計Webさんの記事で紹介されていますので、そちらを参照してください。

まとめ

正規分布についてのまとめです。

用語 意味
正規分布 統計学における検定や推定、モデルの作成など様々な場面で活躍される連続型確率分布
正規分布の表し方  X~N(\mu, \sigma ^2)
正規分布の確率 \displaystyle f(x) = \frac{1}{\sqrt{2 \pi} \sigma} \exp{\left\{- \frac{(x-\mu) ^2}{2\sigma ^2} \right\}}
正規分布の特徴  -1 <  x <  1の場合、約 68\%
 -2 <  x <  2の場合、約 95\%
 -3 <  x <  3の場合、約 99.7\%
正規分布の期待値  E[X] = \mu
正規分布の分散  V[X] = \sigma ^2

また、今回取り上げなかった、標準化、歪度、尖度については別記事でまとめます。