とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.18~正規分布、標準化編~

正規分布第2弾です。今回は標準化ついて解説します。歪度、尖度に関しては別記事の方でまとめることにします。 正直あまり歪度、尖度が出てきた論文を見たことがないので頭の隅に入れておけばいいかなと思います。

それでも、歪度、尖度を取り扱うのは統計検定2級の問題で出てきたからです。恐ろしい...。

標準化

前回あたりの記事で、正規分布は平均 \mu、分散 \sigma ^2で表された場合、式を以下のように書くことが出来ました。

\displaystyle f(x) = \frac{1}{\sqrt{2 \pi} \sigma} \exp{\left\{- \frac{(x-\mu) ^2}{2\sigma ^2} \right\}}

ただし、 xの定義域は、 -\infty <  x <  \inftyです。

しかし、このままだと積分の計算が面倒です。そこで、あらかじめ計算された標準正規分布を使いたいのですが、標準正規分布表は平均 0、分散 1 ^2の場合しか計算できません。

というわけで、 N(\mu, \sigma ^2)のデータから \mu = 0 \sigma ^2 = 1となるように変換します。この処理のことを標準化と言います。

以下のようにして変換します。

 \displaystyle z = \frac{X - \mu} {\sigma}

コラム:偏差値の求め方

標準化が分かれば、偏差値も求めることが出来ます。偏差値の求め方は、

 z \times 10+ 50

で求めることが可能です。

例えば、100点満点のテストで80点を取ったとします。この時、テストの平均点が60点、標準偏差が10点の場合、

 \displaystyle z = \frac{X - \mu}{\sigma}

 \displaystyle = \frac{80 - 60}{10}

 \displaystyle = \frac{20}{10} = 2

よって、自分の偏差値は

 z \times 10 + 50 = 2 \times 10 + 50 = 70

となります。

例題

統計Webさんより

あるクラスのテストの結果は、 \mu = 72.8 \sigma = 15正規分布に従う。この時、88点以上の人は何 \%いるか?


標準化を行いましょう。

 \displaystyle z = \frac{X - \mu}{\sigma} = \frac{88 - 72.8}{15} = 1.01

これを標準正規分布表から求めます。標準正規分布表を使った求め方は統計Webさんの記事にお任せするとして、標準正規分布表から確率を求めると、

 \displaystyle P \left(Z = \frac{X - \mu}{\sigma} = 1.01 \right) = 0.156



となります。
ちなみに、実際に手計算しようとすると

 \displaystyle P \left(Z = \frac{X - \mu}{\sigma} \geq 1.01 \right)

 \displaystyle = \int_{1.01} ^\infty \,\, \frac{1}{\sqrt{2 \pi} } \exp{\left\{- \frac{z ^2}{2} \right\}}

と計算していきます。標準化しているため、 \mu = 0 \sigma ^2 = 1となり、

 \displaystyle P(X) = \frac{1}{\sqrt{2 \pi} } \exp{\left\{- \frac{x ^2}{2} \right\}}

の式を使用しています。



途中の計算の

 \displaystyle  \int_{1.01} ^\infty \,\, \frac{1}{\sqrt{2 \pi} } \exp{\left\{- \frac{z ^2}{2} \right\}}

は下図の斜線部のようになりますね。

f:id:kurasher:20200809225203p:plain

まとめ

用語 意味
標準化  N(\mu, \sigma ^2)のデータから \mu = 0 \sigma ^2 = 1となるように変換
標準化の式  \displaystyle z = \frac{X - \mu} {\sigma}
偏差値の求め方  z \times 10+ 50