とあるお兄さんの雑記

基本的に技術系の内容を書きますが、何を書くかは私の気分です。

統計学基礎vol.52〜単回帰分析〜

回帰とは

回帰とは、目的変数 yについて説明変数 xを使った式で表すこという。

この式のことを回帰方程式、あるいは簡単に回帰式という。また回帰式を求めることを回帰分析という。

回帰式というと、おおよそ1次関数( y = \beta_0 + \beta_1 x \beta_0は切片、 \beta_1は傾き)をイメージされるかもしれませんが、実は1次関数だけではなく、2次関数や3次関数なども回帰式として求めることが可能です。

回帰分析と重回帰分析

回帰分析(単回帰分析)は説明変数が一つのもの( y = \beta_0 + \beta_1 xなど)を求めることを言います。ちなみに、説明変数が一つであればいいので、 y = \beta_0 + \beta_1 x + \beta_2 x ^2  y = \beta_0 + \beta_1 x + \beta_2 x ^2 + \beta_3 x ^3を求めることも単回帰分析になります。

一方、重回帰分析は説明変数が複数のものを求めることを言います。つまり、 z = \beta_0 + \beta_1 x + \beta_2 yなどのように説明変数が複数あれば重回帰分析となります。

単回帰分析と重回帰分析は理解してしまえば簡単なので、きちんと区別できるようにしておきましょう。

単回帰式における係数(重み)の求め方

単回帰式 y = \beta_0 + \beta_1 xにおける  \beta_0  \beta_1 xの求め方について考えていきましょう。
基本的には、測定、収集されたデータから真の回帰式を求めるため、 y = \beta_0 + \beta_1 xを求めることができればいいのですが、現実の問題はそう簡単ではありません。
測定誤差やさまざまな誤差を含んでいることが考えられます。そのため、そのようなさまざまな誤差をまとめて uとして考え、真の回帰式から実際のデータまでのズレを考えると下記のように考えることができます。

 y = \beta_0 + \beta_1 x + u

図にすると下記のような感じです。

さて、ここで仮に収集されたデータが n個あれば、 x_i y_iもそれぞれ n個あります。そうなると、説明変数 x_i \beta_0 \beta_1で表現できる真の値は \beta_0 + \beta_1 x_iとなります。そして、実際に計測された値 y_iとの差が誤差となります。つまり、 i番目のデータの誤差は

 u_i = y_i - (\beta_0 + \beta_1 x_i)

で求めることができます。

この全ての誤差データ u_iを小さくなるようにすれば、 \beta_0 \beta_1を求めることができます。より詳しく書くと、次式で表されるようにそれぞれのデータの誤差 u_iの二乗和を考え、この二乗和が最小となるような \beta_0 \beta_1を算出することで求めることができます。この方法を最小二乗法と言います。

 e_iがいきなり出てきましたが、これは残差と呼ばれるもので、後程コラムで解説します。

最小二乗法により推定された \beta_0 \beta_1は「偏回帰係数」と呼ばれます。これらは実際のデータから算出された推定値であり、真の回帰式における \beta_0 \beta_1とは異なることから、「^ (ハット)」をつけて \hat{\beta_0} \hat{\beta_1}と表します。

さて、以上を踏まえて上で、 \beta_0 \beta_1の求め方について省略した形ではありますが、簡単に説明します。 最小二乗法を用いて回帰式 y = \beta_0 + \beta_1x \beta_0 \beta_1を求める場合、下記式を \beta_0 \beta_1をそれぞれで偏微分した式を0とした2つの式を使います。

偏微分を計算し、整理すると下記のように求める式を求めることができます。

コラム:残差と誤差について

単回帰式における係数(重み)の求め方のところで e_iがいきなり出てきましたが、これは残差と呼ばれるものです。
誤差 uは求めようとする真の回帰式から算出される値と実際のデータとの差を表しています。
一方、残差 eは実際のデータを用いて推定された回帰式から算出される値と実際のデータとの差を表しています。
図で表すと下記のようになります。

まとめ

用語 意味
回帰 目的変数 yについて説明変数 xを使った式
回帰分析 回帰方程式(回帰式)を求めること
最小二乗法 それぞれのデータの誤差 u_iの二乗和を考え、この二乗和が最小となるような \beta_0 \beta_1を算出する方法
偏回帰係数 回帰分析において得られる回帰方程式の各説明変数の係数のこと
誤差 真の回帰式から算出される値と実際のデータとの差
残差 推定された回帰式から算出される値と実際のデータとの差