【統計】回帰係数を推定してみた!!

統計

こんにちは

今回は「回帰係数の推定」について解説していきたいと思います。

スポンサーリンク

回帰係数の推定

回帰係数について解説する前に、回帰方程式について説明します。

回帰方程式とは二つの変数\(X,Y\)があるときに、それらの関係を示す方程式のことです。

例えば平均気温を\(X\), 緯度を\(Y\)とすると

$$
Y = \beta_2 X + \beta_1
$$

という線形の関係を持ちます(つまり、緯度が大きくなるほど平均気温は低くなる)。

このような方程式を回帰方程式と呼び、その係数\(\beta_1, \beta_2\)を回帰係数と呼びます。

最小二乗法による推定

以前に「【統計】最尤推定(離散)について解説してみた!!」で最尤推定というものをやりました。

最尤推定とは「最も出現確率の高い事象が現実に起こる」という原則のもと、出現確率の最大値をもとめ、平均の推定を行う手法でした。

これは、推定値が一つに定まるので「点推定」と呼ばれます。

点推定にはいくつか種類があり、「最尤推定」の他にも「最小二乗法」という推定方法があります。

最小二乗法は「データとモデルの差を最小にする」という原則のもと、推定を行います。

ここでいうデータとは実際の観測から得られる\(Y\)のことで、モデルとは回帰方程式から予想される\(\hat{Y}(=\beta_2 X + \beta_1)\)の値のことです。

計算

では実際に最小二乗法で推定を行ってみましょう。

\(i\)個目のデータ\(Y_i\)と、回帰直線から得られる\(\hat{Y}_i = \beta_2 X_i + \beta_1\)の差は

$$
\epsilon_i = Y_i – \hat{Y_i}
$$

となります。

全てのデータ点でこれが最小になればいいので、和を取ります。

また、差のみに注目しているので、二乗します。

よって

$$
\begin{eqnarray}
S &=& \sum_{i = 1} \epsilon_i^2\\
&=& \sum (Y_i – \hat{Y_i})^2\\
&=& \sum (Y_i – (\beta_2 X_i + \beta_1))^2
\end{eqnarray}
$$

となり、この\(S\)が最小になる\(\beta_1, \beta_2\)を求めます。

\(\beta_1, \beta_2\)の推定値

では\(\beta_1, \beta_2\)を推定してみましょう。

\(S\)が最小になる\(\beta_1, \beta_2\)を求めるので\(S\)を\(\beta_1, \beta_2\)で微分します。

すると

\begin{eqnarray}
\frac{\partial S}{\partial \beta_1} &=& -2\sum (Y_i – (\beta_2 X_i + \beta_1))\\
&=& 0
\end{eqnarray}

\begin{eqnarray}
\frac{\partial S}{\partial \beta_2} &=& -2\sum X_i(Y_i – (\beta_2 X_i + \beta_1))\\
&=& 0
\end{eqnarray}

となります。さらにこの連立方程式を解きます。

平均の式から

$$
\begin{cases}
\sum X_i = n\bar{X}\\
\sum Y_i = n\bar{Y}
\end{cases}
$$

なので、

\begin{eqnarray}
\sum (Y_i – (\beta_2 X_i + \beta_1)) &=& \sum Y_i -\beta_2\sum X_i – \sum \beta_1\\
&=& n\bar{Y} – n\beta_2\bar{X} – n\beta_1\\
&=& 0
\end{eqnarray}

よって

$$
\bar{Y} – \beta_2\bar{X} – \beta_1 = 0
$$

また、

\begin{eqnarray}
\sum X_i(Y_i – (\beta_2 X_i + \beta_1)) &=& \sum X_i Y_i – \beta_2\sum X_i^2 + \sum \beta_1X_i\\
&=& \sum X_i Y_i – n\beta_2\bar{X^2} – n\beta_1\bar{X}\\
&=& 0
\end{eqnarray}

よって

$$
\sum X_i Y_i – n\beta_2\bar{X^2} – n\beta_1\bar{X} = 0
$$

\(\beta_1\)を消去すると

$$
\beta_2 = \frac{\sum X_i Y_i – n\bar{X}\bar{Y}}{n\left(\bar{X^2} – \bar{X}^2\right)} = \frac{\sum (X_i – \bar{X})(Y_i – \bar{Y})}{\sum\left(X_i – \bar{X}\right)^2}
$$

また、この\(\beta_2\)の値を使って\(\beta_1\)を表すと

$$
\beta_1 = \bar{Y} – \beta_2\bar{X} = \bar{Y} – \frac{\sum (X_i – \bar{X})(Y_i – \bar{Y})}{\sum\left(X_i – \bar{X}\right)^2}\bar{X}
$$

となります。

よってこれらが\(\beta_1, \beta_2\)の推定量\(\hat{\beta_1}, \hat{\beta_2}\)となります。

また、

$$
Y = \hat{\beta_1} + \hat{\beta_2}X
$$

標本回帰方程式と呼びます。

コメント

  1. […] 「【統計】回帰係数を推定してみた!!」で回帰係数の推定を行いました。 […]

タイトルとURLをコピーしました