こんにちは
今回は「偏相関係数」について解説したいと思います。
偏相関係数
偏相関係数とはある変数の影響を考えなかったときの相関係数になります。
例えば「ピアノを習っている子供は勉強の成績がいい」という事象を考えてみましょう。
これを単純に考えると「ピアノを習っている」ことと「勉強の成績」に相関関係があるように思えます。
しかし、これは本当にそうなんでしょうか?
これには「ピアノを習っている」「勉強の成績」という2変数の他に「親の年収」が関係してきそうではないでしょうか?
つまり、親の年収がよければ子供をピアノに習わせることができ、さらに教育にもお金を投じることができます。
なので、実際に相関があるのは「親の年収」と「ピアノ習っている率」さらに「親の年収」と「勉強の成績」ということになるのではないでしょうか?
こうした問題に直面したときにいったん「親の年収」という変数の影響をなくして「ピアノ習っている率」と「勉強の成績」の相関係数を求めてみたくなりますね。
こうしたときに役立つのが偏相関係数です。
\(z\)の影響を除いた\(x,y\)の相関係数(偏相関係数)は
$$
r_{xy\cdot z}=\frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{1-r_{xz}^2}\sqrt{1-r_{yz}^2}}
$$
と書けます。今回はこれを導出していこうと思います。
偏相関係数の導出
残差
ではまず、データ\(x_i\)から、データ\(z_i\)の影響を除きます。
\(z_i\)を使って変数\(x\)の回帰直線を考えると
$$
{\hat x} = {\bar x} – \frac{\sigma_{xz}}{\sigma_z^2}(z_i – {\bar z})
$$
となります。
この\({\hat x}\)は\(z_i\)の値を使って与えられるものなので、これを本当の\(x_i\)の値から引けば、\(z_i\)の影響を除いたことになりそうです。
すなわち
\begin{eqnarray}
e_{x} &=& x_i – {\hat x}\\
&=& (x_i – {\bar x}) – \frac{\sigma_{xz}}{\sigma_z^2}(z_i – {\bar z})
\end{eqnarray}
ただし、\(\sigma_{xz}\)は\(x,z\)の共分散、\(\sigma_{z}\)は\(z\)の標準偏差です。
この\(e_x\)がデータ\(x_i\)から\(z_i\)の影響を除いたものになります。
\(e_y\)も同様に考えると
\begin{eqnarray}
e_{y} &=& y_i – {\hat y}\\
&=& (y_i – {\bar y}) – \frac{\sigma_{yz}}{\sigma_z^2}(z_i – {\bar z})
\end{eqnarray}
ただし、\(\sigma_{yz}\)は\(y,z\)の共分散です。
となります。
この\(e_y\)がデータ\(y_i\)から\(z_i\)の影響を除いたものになります。
\(e_x,e_y\)を残差といいます。
偏相関係数
\(x,y\)の残差\(e_x,e_y\)の相関係数を求めます。
$$
r_{e_xe_y} = \frac{\frac{1}{N}\sum (e_x – {\bar e_x})(e_y – {\bar e_y})}{\sqrt{\frac{1}{N}\sum (e_x – {\bar e_x})^2}\sqrt{\frac{1}{N}\sum (e_y – {\bar e_y})^2}}
$$
となります。ただし\(\sum = \sum_i^{N}\)とします。
相関係数については「【統計】相関係数について解説してみた!!」を参照してください。
あとは計算していきます。
分子の計算
分子を展開すると
\begin{eqnarray}
\frac{1}{N}\sum (e_x – {\bar e_x})(e_y – {\bar e_y}) &=& \frac{1}{N}\sum (e_xe_y – e_x{\bar e_y} -{\bar e_x}e_y + {\bar e_x}{\bar e_y})\\
&=& \overline{ e_xe_y}-{\bar e_x}{\bar e_y}-{\bar e_x}{\bar e_y} +{\bar e_x}{\bar e_y}\\
&=& \overline{e_xe_y}-{\bar e_x}{\bar e_y}
\end{eqnarray}
となります。
また、
$$
{\bar e_x}=\frac{1}{N}\sum (x_i – {\bar x}) – \frac{\sigma_{xz}}{\sigma_z^2}(z_i – {\bar z})=0
$$
$$
{\bar e_y}=\frac{1}{N}\sum (y_i – {\bar y}) – \frac{\sigma_{yz}}{\sigma_z^2}(z_i – {\bar z})=0
$$
\begin{eqnarray}
\overline{e_xe_y} &=& \frac{1}{N}\sum \left[(x_i – {\bar x}) – \frac{\sigma_{xz}}{\sigma_z^2}(z_i – {\bar z})\right]\left[(y_i – {\bar y}) – \frac{\sigma_{yz}}{\sigma_z^2}(z_i – {\bar z})\right]\\
&=&\frac{1}{N}\left[\sum(x_i – {\bar x})(y_i – {\bar y}) – \sum \frac{\sigma_{yz}}{\sigma_z^2}(x_i – {\bar x})(z_i – {\bar z}) – \sum \frac{\sigma_{xz}}{\sigma_z^2}(z_i – {\bar z})(y_i – {\bar y}) + \sum \frac{\sigma_{xz}\sigma_{yz}}{\sigma_z^4}(z_i – {\bar z})^2\right]\\
&=& \sigma_{xy} – \frac{\sigma_{yz}\sigma_{xz}}{\sigma_z^2} – \frac{\sigma_{yz}\sigma_{xz}}{\sigma_z^2} + \frac{\sigma_{yz}\sigma_{xz}}{\sigma_z^2}\\
&=& \sigma_{xy} – \frac{\sigma_{yz}\sigma_{xz}}{\sigma_z^2}
\end{eqnarray}
となります。
分母の計算
分母を計算していきます。
\begin{eqnarray}
\sqrt{\frac{1}{N}\sum (e_x – {\bar e_x})^2} &=& \sqrt{\overline{e_x^2}-{\bar e_x}^2}\\
&=& \sqrt{\overline{e_x^2}}\\
&=& \sqrt{\frac{1}{N}\sum \left[(x_i – {\bar x}) – \frac{\sigma_{xz}}{\sigma_z^2}(z_i – {\bar z})\right]^2}\\
&=& \sqrt{\frac{1}{N}\sum (x_i-{\bar x})^2 -2\frac{\sigma_{xz}}{\sigma_z^2}(x_i-{\bar x})(z_i-{\bar z}) + \frac{\sigma_{xz}^2}{\sigma_z^4}(z_i-{\bar z})^2}\\
&=& \sqrt{\sigma_x^2 -2\frac{\sigma_{xz}^2}{\sigma_z^2}+\frac{\sigma_{xz}^2}{\sigma_z^2}}\\
&=& \sqrt{\sigma_x^2 -\frac{\sigma_{xz}^2}{\sigma_z^2}}
\end{eqnarray}
となります。
同様に
$$
\sqrt{\frac{1}{N}\sum (e_y – {\bar e_y})^2} = \sqrt{\sigma_y^2 -\frac{\sigma_{yz}^2}{\sigma_z^2}}
$$
となります。
最終的に
\begin{eqnarray}
r_{e_xe_y} &=& \frac{\frac{1}{N}\sum (e_x – {\bar e_x})(e_y – {\bar e_y})}{\sqrt{\frac{1}{N}\sum (e_x – {\bar e_x})^2}\sqrt{\frac{1}{N}\sum (e_y – {\bar e_y})^2}}\\
&=& \frac{\sigma_{xy} – \frac{\sigma_{yz}\sigma_{xz}}{\sigma_z^2}}{\sqrt{\sigma_x^2 -\frac{\sigma_{xz}^2}{\sigma_z^2}}\sqrt{\sigma_y^2 -\frac{\sigma_{yz}^2}{\sigma_z^2}}}\\
&=& \frac{\sigma_{x}\sigma_{y}(r_{xy}-r_{yz}r_{xz})}{\sigma_x\sqrt{1-r_{xz}}\sigma_y\sqrt{1-r_{yz}}}\\
&=& \frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{1-r_{xz}^2}\sqrt{1-r_{yz}^2}}
\end{eqnarray}
となります。\(r_{e_xe_y}\)はzの影響を取り除いたxyの相関関係なので、\(r_{e_xe_y}\to r_{xy\cdot z}\)と書くと
$$
r_{xy\cdot z}=\frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{1-r_{xz}^2}\sqrt{1-r_{yz}^2}}
$$
となり、みごと導出できました!