とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.51〜無相関の検定と偏相関係数〜

気づいたら年が明けてました。だから何やねんって話ですが。

無相関の検定

標本から算出した相関係数を使って、母集団の相関係数が0かどうかを検定すること。

帰無仮説 H_0 母相関係数は0(無相関)である。

検定は自由度が (n-2) t分布を利用し、 rは標本から算出した相関係数 nはサンプルサイズである。

 \displaystyle t = \frac{|r| \sqrt{(n-2)}}{\sqrt{1-r ^2}}

相関係数の信頼区間

次式を用いて標本から算出した相関係数 rを変換する。この変換をフィッシャーの z変換という。

 \displaystyle z = \frac{1}{2} \log\left( \frac{1+r}{1-r} \right)

同様に母相関係数 \rho z変換したものを \zetaとすると、

 \displaystyle \zeta = \frac{1}{2} \log\left( \frac{1+\rho}{1-\rho} \right)

と表せる。

 Zはサンプルサイズ nが大きい時には平均 \zeta、分散 \frac{1}{n-3}正規分布 N(\zeta, \frac{1}{n-3})に従う。これらを用いて Zを標準化すると、

 \displaystyle \frac{Z-\zeta}{\sqrt{\frac{1}{n-3}}} = \sqrt{(n-3)}(Z - \zeta)

よって、この値が標準正規分布 N(0,1) に従うことから、 100(1-\alpha)\%信頼区間は、

となる。

最後に \zeta を母相関係数 \rhoに戻し、[tex: Z_L(Z{Lower})]、[tex: Z_U(Z{Upper})]を次のように書く。

相関係数 \rhoの信頼区間は、

\displaystyle \frac{\exp(2Z_L) - 1}{\exp(2Z_L) + 1} \leq \rho \leq \frac{\exp(2Z_U) - 1}{\exp(2Z_U) + 1}

となる。

相関係数

2つの変数の相関が第3の変数によって高められる、または低められる場合に2変数から第3の変数の影響を取り除いて求めた相関係数のこと。

1つの因子を x、2つ目の因子を y、3つ目の因子を zと置く。 x y相関係数 Rxy y z相関係数 R yz z x相関係数 Rzxとする。これを用いて、 zの影響を除いた x yの偏相関係数 Rxy/zを表すと、

 \displaystyle Rxy/z = \frac{Rxy - Rzx \times Ryz}{\sqrt{1-Rzx ^2}\sqrt{1-Ryz ^2}}

と表せる。

層別解析

データの中に幾つかの異なる性質の集団が含まれている場合、データを分割して解析すること。

例えば、各都道府県の年間日照時間と年間平均気温の関係を表すと、年間日照時間が長い都道府県ほど平均気温が高くなります。しかし、雪の多い都道府県と雪の少ない都道府県で層を分けて解析すると、雪が多いか少ないかで結果が変わってくることがあります。

まとめ

用語 意味
無相関の検定 標本から算出した相関係数を使って、母集団の相関係数が0かどうかを検定すること
相関係数の信頼区間 相関係数 \rhoの信頼区間は、\displaystyle \frac{\exp(2Z_L) - 1}{\exp(2Z_L) + 1} \leq \rho \leq \frac{\exp(2Z_U) - 1}{\exp(2Z_U) + 1}
相関係数 2つの変数の相関が第3の変数によって高められる、または低められる場合に2変数から第3の変数の影響を取り除いて求めた相関係数のこと
層別解析 データの中に幾つかの異なる性質の集団が含まれている場合、データを分割して解析すること。