こんにちは
今回は「決定係数」について解説したいと思います。
決定係数
決定係数とは
$$
\eta^2 = 1 – \frac{\sum (Y_i – \hat{Y}_i)^2}{\sum (Y_i – \bar{Y})^2}
$$
という式で計算されます。ただし、\(Y_i\)はデータで、\(\hat{Y}_i\)は\(Y_i\)の回帰直線上の値, \(\bar{Y}\)は平均値になります。
この式の意味としては「回帰直線\(\hat{Y}\)の当てはまりの良さ」を表しています。
以下で、詳細を解説していきます。
回帰直線\(\hat{Y}\)の当てはまりの良さ
回帰直線の「当てはまりの良さ」とは何でしょうか?
これは「データと回帰直線のずれの少なさ」で表されると考えられます。
では、「データと回帰直線のずれ」を式で表してみましょう
データと回帰直線のずれ
式に置き換えると
$$
Y_i – \hat{Y}_i
$$
となります。
今注目したいのは「データが回帰直線からどれだけバラついているのか」だけなので、二乗して符号を取り、バラツキの合計を計算します。
すると
$$
\sum (Y_i – \hat{Y}_i)^2
$$
となります。これが少ないほど良い回帰直線といえます。
分散で割る
さて、これで終わりたいところですが、そうはいきません。
次に
$$
\sum (Y_i – \hat{Y}_i)^2
$$
をデータ\(Y_i\)全体の分散
$$
\sum (Y_i – \hat{Y})^2
$$
で割ります。
つまり
$$
\frac{\sum (Y_i – \hat{Y}_i)^2}{\sum (Y_i – \bar{Y})^2}
$$
とします。
こうすることによって、
$$
\frac{(データごとのばらつき)}{(データ全体のばらつき)}
$$
と標準化し、単位を変換したときでも使うことができます。
これは「【統計】相関係数について解説してみた!!」の無次元化と同じ考えです。
最後にこれを1から引き算し、「データとモデルの差が小さい(回帰直線の当てはまりがいい)ほど\(\eta^2\)の値が大きくなる」ように調節します。
すると
$$
\eta^2 = 1- \frac{\sum (Y_i – \hat{Y}_i)^2}{\sum (Y_i – \bar{Y})^2}
$$
となり、定義式が導出できます。
まとめ
・決定係数:回帰直線の当てはまりの良さ=データとモデル(回帰直線の値)の差の小ささ
・決定係数は
$$
\eta^2 = 1- \frac{\sum (Y_i – \hat{Y}_i)^2}{\sum (Y_i – \bar{Y})^2}
$$
で定義される。