とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.50〜散布図と相関係数〜

さて、今回からは今までの仮説検定の話を終えて、散布図と相関係数の話に入ります。

長々とやってきた統計学基礎ですが、散布図関連と回帰分析だけを取り上げれば、このブログでの解説は終わろうかと思っています。

まぁ、あと2年ぐらいすれば終わるかもしれません。。。

散布図

2つの要素からなる1組のデータが得られた時に、2つの要素の関係を見るためにプロットしたグラフのこと。
ざっくり言えば下記のような画像になります。

データを散布図で表すと、1つ目の要素が変化したときに、2つ目の要素はどのように変化するかを確認することができます。また、2つの要素の間に何らかの関係がある時、これらのデータ間には

相関関係がある

と言います。

正の相関と負の相関と無相関

正の相関関係とは、横軸の値( xなど)が増加すると縦軸の値( yなど)も増加するという関係のこと。例としては散布図のところで挙げた図がこれにあたります。

負の相関関係とは、横軸の値( xなど)が増加すると縦軸の値( yなど)が減少するという関係のこと。

直線的な関係の傾向が強い場合、強い相関関係、逆の場合は弱い相関関係と言います。(この辺りの強い、弱いに関しては相関係数という値で計算できます。詳しくはこの後説明します。)

強い相関の例は下記のように、直線的な傾向が強く残っています。

弱い相関の例は下記のように、直線的な傾向はあるものの、上記と比べるとそこまで強くないことがわかります。

横軸が増加しても縦軸に増減の傾向が見られない場合は、相関関係なし(無相関)と言います。
無相関の例は下記になります。

相関関係と因果関係

相関関係は、2つの事象の間にある何らかの関係のことを言います。ただし、どちらかの事象がもう片方の事象の直接的な原因かどうかは不明です。

因果関係は、2つの事象のうち、一方が原因となって他方の結果があるという関係のことを言います。相関関係があるからといって、因果関係があるとは言えません。

相関係数

2つの要素 x yからなる nコのデータ( x_i, y_i : i = 1, 2, ..., n)が得られた時、その相関係数 r_{xy}は次の式から算出される。

分母は x yそれぞれの標準偏差の積になっており、分子は x yの共分散である。

また、相関係数 r_{xy}の範囲は

 -1 \leqq r_{xy} \leqq 1

で、相関係数が1、もしくは-1に近いほど相関が強く、0に近いほど相関が弱い。ただし、相関係数が0に近くても、何らかの関係がある場合がある。

相関係数は2つの要素の直線的な相関関係の強弱を表すもので、 y = x ^2のような線形ではない相関関係の強弱は正しく表すことができない。そのため、相関係数 r_{xy}が0に近くても「相関がない」とは言い切れず、実際のデータをグラフにプロットして確認する必要がある。

目視で捉えることが必要である!

まとめ

用語 意味
散布図 2つの要素からなる1組のデータが得られた時に、2つの要素の関係を見るためにプロットしたグラフ
正の相関関係 横軸の値( xなど)が増加すると縦軸の値( yなど)も増加するという関係
負の相関関係 横軸の値( xなど)が増加すると縦軸の値( yなど)が減少するという関係
強い相関関係 直線的な関係の傾向が強い
弱い相関関係 直線的な関係の傾向が弱い
相関関係なし(無相関) 横軸が増加しても縦軸に増減の傾向が見られないもの
相関関係と因果関係 相関関係は2つの事象の間にある何らかの関係のこと、因果関係は2つの事象のうち一方が原因となって他方の結果があるという関係。相関関係があるからといって因果関係があるとは言えない。
相関係数 r_{xy} 2つの要素の相関を計算した値。範囲は -1 \leqq r_{xy} \leqq 1
相関係数の注意点 相関係数は2つの要素の直線的な相関関係の強弱を表すため、線形ではない相関関係の強弱は正しく表すことができない。目視で捉えることが必要。