【統計】相関係数について解説してみた!!

物理

こんにちは

今回は「相関係数」について解説したいと思います。

スポンサーリンク

相関係数の意味

何か二つの変数(例えば身長と体重)を散布図にしたとき、「一方が増えればもう一方も増える関係」が見えたとします(身長が増えれば体重も増えそうですよね)。

このような二つの変数の直線的な関係(一方が増えればもう一方も増える関係 または 一方が減ればもう一方も減る関係)を相関関係といいます。

相関係数とは二つの変数の相関関係(関係性)の強さを表した係数で

$$
r=\frac{\frac{1}{N}\sum_{i=1}^{N}(x_i-{\bar x})(y_i-{\bar y})}{\sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i-{\bar x})^2}\sqrt{\frac{1}{N}\sum_{i=1}^{N}(y_i-{\bar y})^2}}
$$

と定義されています。また分子分母の\(\frac{1}{N}\)を約分して

$$
r=\frac{\sum_{i=1}^{N}(x_i-{\bar x})(y_i-{\bar y})}{\sqrt{\sum_{i=1}^{N}(x_i-{\bar x})^2}\sqrt{\sum_{i=1}^{N}(y_i-{\bar y})^2}}
$$

とも書かれます。今回はなぜこのような式で相関係数が定義されているのしょうか?

共分散

共分散とは相関係数の分子にいるやつで

$$
\sigma_{xy} = \frac{1}{N}\sum_{i}(x_i-{\bar x})(y_i-{\bar y})
$$

の部分を示します。(\(\sum_{i=1}^{N}\rightarrow \sum_{i}\)とした)

これはデータが直線関係\(y=ax+b\)にどれだけ近い(離れている)かについて示しています。

この式の意味は図にしてみるとわかりやすいかと思います。

二つの変数x,yの散布図を以下に示します。

まず、上の図のように\({\bar x}\)(xの平均)と\({\bar y}\)(yの平均)で4つの領域に分けます。

すると右上と左下の領域に点が集中しています。共分散の式ではどのように表されるでしょうか

共分散の式を見てみると\((x_i-{\bar x})(y_i-{\bar y})\)が式の中にあるので、これらを各領域で計算してみましょう。

右上の領域では\((x_i-{\bar x})>0,(y_i – {\bar y})>0\)となっているので\((x_i-{\bar x})(y_i – {\bar y})\)は正になります。

さらに左下の領域では\((x_i-{\bar x})<0,(y_i – {\bar y})<0\)となっているので、こちらも\((x_i-{\bar x})(y_i – {\bar y})\)は正になります。

さらにこれらを足し合わせるので、共分散全体としては大きな正の値になることが分かります。

このような場合を「正の相関がある」といいます。

今度は次の例を考えてみましょう。

今度は右下と左上にデータが散布しています。これらの領域について共分散を計算してみましょう。

右下の領域では\((x_i-{\bar x})>0,(y_i – {\bar y})<0\)となっているので\((x_i-{\bar x})(y_i – {\bar y})\)は負になります。

さらに左上の領域では\((x_i-{\bar x})<0,(y_i – {\bar y})>0\)となっているので、こちらも\((x_i-{\bar x})(y_i – {\bar y})\)は負になります。

さらにこれらを足し合わせるので、共分散全体としては大きな負の値になることが分かります。

このような場合を「負の相関がある」といいます。

次は以下のような場合です。

このような場合は全体に分布をしているので、\((x_i-{\bar x})(y_i – {\bar y})\)が正の場合も負の場合も両方あります。そのためすべて足し合わせると共分散は0に近づいていきます。

このような場合を「相関がない」といいます。

このように共分散はデータの分布によって値が変わります。すなわちデータの分散具合を示しているということができます。

なぜ標準偏差で割るか

共分散が便利なのはわかりましたが、なぜそれをx,yの標準偏差で割り算しなくてはいけないのでしょうか?

それは無次元化するためです。

無次元化とは字からわかる通り次元をなくすことですが、ここでいう次元とは単位のことです。

例えば体重の単位はkg身長の単位はmですよね。このような単位を同じ単位を持つ値で割り算することで消去するのです。

無次元化のイメージとしては相関係数を例にとると

$$
\frac{(kg\times m)^2}{(kg \times m)(kg \times m)}=1
$$

という感じになります。次元(kgとm)が約分されて消えました。

なので、なぜ標準偏差で割るのかといえば無次元化に都合のいい値だったから、ということになります。

なぜ、無次元化するのか

ではなぜ無次元化などするのでしょうか?

例えばの例でまたしても体重と身長を考えてみましょう。

先ほどの例では体重の単位はkgでしたが、これをgに書き換えてみましょう。身長も同じようにmをcmに変えてみましょう。

すると身長と体重の関係は変わらないはずなのに値が1000倍と100倍になってしまいます。(1kg→1000g,1m→100cm)

単位を変えただけで関係までもが変わってしまうと、相関関係の指標としてはおかしなものになってしまいます。

なので、無次元化(共分散をgで考えていたら、標準偏差もgで考え割り算する)をして次元(単位)に左右されないような値(相関係数)を考えたのです。

参考

こちらの本を参考にしました。

コメント

  1. […] 相関係数については「【統計】相関係数について解説してみた!!」を参照してください。 […]

タイトルとURLをコピーしました