【統計】決定係数について解説してみた!!

統計

こんにちは

今回は「決定係数」について解説したいと思います。

スポンサーリンク

決定係数

決定係数とは

$$
\eta^2 = 1 – \frac{\sum (Y_i – \hat{Y}_i)^2}{\sum (Y_i – \bar{Y})^2}
$$

という式で計算されます。ただし、\(Y_i\)はデータで、\(\hat{Y}_i\)は\(Y_i\)の回帰直線上の値, \(\bar{Y}\)は平均値になります。

この式の意味としては「回帰直線\(\hat{Y}\)の当てはまりの良さ」を表しています。

以下で、詳細を解説していきます。

回帰直線\(\hat{Y}\)の当てはまりの良さ

回帰直線の「当てはまりの良さ」とは何でしょうか?

これは「データと回帰直線のずれの少なさ」で表されると考えられます。

では、「データと回帰直線のずれ」を式で表してみましょう

データと回帰直線のずれ

式に置き換えると

$$
Y_i – \hat{Y}_i
$$

となります。

今注目したいのは「データが回帰直線からどれだけバラついているのか」だけなので、二乗して符号を取り、バラツキの合計を計算します。

すると

$$
\sum (Y_i – \hat{Y}_i)^2
$$

となります。これが少ないほど良い回帰直線といえます。

分散で割る

さて、これで終わりたいところですが、そうはいきません。

次に

$$
\sum (Y_i – \hat{Y}_i)^2
$$

をデータ\(Y_i\)全体の分散

$$
\sum (Y_i – \hat{Y})^2
$$

で割ります。

つまり

$$
\frac{\sum (Y_i – \hat{Y}_i)^2}{\sum (Y_i – \bar{Y})^2}
$$

とします。

こうすることによって、

$$
\frac{(データごとのばらつき)}{(データ全体のばらつき)}
$$

と標準化し、単位を変換したときでも使うことができます。

これは「【統計】相関係数について解説してみた!!」の無次元化と同じ考えです。

最後にこれを1から引き算し、「データとモデルの差が小さい(回帰直線の当てはまりがいい)ほど\(\eta^2\)の値が大きくなる」ように調節します。

すると

$$
\eta^2 = 1- \frac{\sum (Y_i – \hat{Y}_i)^2}{\sum (Y_i – \bar{Y})^2}
$$

となり、定義式が導出できます。

まとめ

・決定係数:回帰直線の当てはまりの良さ=データとモデル(回帰直線の値)の差の小ささ

・決定係数は

$$
\eta^2 = 1- \frac{\sum (Y_i – \hat{Y}_i)^2}{\sum (Y_i – \bar{Y})^2}
$$

で定義される。

タイトルとURLをコピーしました