なかけんの数学ノート

【応用】データの変換で相関係数はどう変わるか

ここでは、【応用】データの変換で分散はどう変わるかと同様に、データの変換によって、相関係数がどう変化するかを見ていきます。また、共分散の変化についても、あわせて見ていきます。

[広告]

共分散と相関係数の復習

まずは、【基本】相関係数で見た、共分散と相関係数の定義を復習しましょう。

2組の対応するデータの値を $x_1, x_2,\cdots,x_n$ と $y_1,y_2,\cdots,y_n$ とし、それぞれの平均値を $\bar{x}$, $\bar{y}$ とします。このとき、共分散 $s_{xy}$ は次のような式で表されます。\[ s_{xy} = \frac{1}{n} \{ (x_1-\bar{x})(y_1-\bar{y}) +(x_2-\bar{x})(y_2-\bar{y}) +\cdots +(x_n-\bar{x})(y_n-\bar{y}) \} \]
また、それぞれの標準偏差を $s_x$, $s_y$ と置いたとき、相関係数 r は次のように表されます。\[ r=\frac{s_{xy}}{s_xs_y} \]

この定義を思い出したうえで、データの変換による影響を考えていきましょう。

定数を足した場合

例えば、 $x_k$ が $x_k+a$ となったとしましょう。【応用】データの変換で分散はどう変わるかで見たように、変換後の平均は $\bar{x}+a$ となります。よって、分散や標準偏差、共分散などで出てくる $x_k-\bar{x}$ という式は $(x_k+a)-(\bar{x}+a)$ という式に変換されます。が、これは元の $x_k-\bar{x}$ と同じ式です。

なので、定数を足しても、共分散は変わりません。標準偏差も変わらないので、相関係数も変わりません

相関係数は「片方が増えたときにもう片方が増える」傾向を示すものでしたが、このことは全体の数値が定数だけスライドしても、変化しないことを表しています。

定数倍した場合

続いて、定数倍した場合を考えてみます。例えば、 $x_k$ が $ax_k$ となり、 $y_k$ はそのままだとしましょう。ただし、 $a\ne 0$ とします。このとき、 $\bar{x}$ だった平均は $a\bar{x}$ になることは【応用】データの変換で分散はどう変わるかで見た通りです。

共分散を考えてみましょう。次のような式になります。
\begin{eqnarray}
& &
\frac{1}{n} \{ (ax_1-a\bar{x})(y_1-\bar{y}) +(ax_2-a\bar{x})(y_2-\bar{y}) +\cdots +(ax_n-a\bar{x})(y_n-\bar{y}) \} \\[5pt]
&=&
\frac{1}{n} \{ a(x_1-\bar{x})(y_1-\bar{y}) +a(x_2-\bar{x})(y_2-\bar{y}) +\cdots +a(x_n-\bar{x})(y_n-\bar{y}) \} \\[5pt]
&=&
a \times \frac{1}{n} \{ (x_1-\bar{x})(y_1-\bar{y}) +(x_2-\bar{x})(y_2-\bar{y}) +\cdots +(x_n-\bar{x})(y_n-\bar{y}) \} \\[5pt]
\end{eqnarray}最後の式の $\times$ より後の部分は、変換前の共分散と一致します。なので、変換後の共分散は $as_{xy}$ とかけることがわかります。

【応用】データの変換で分散はどう変わるかで見たように、標準偏差 $s_x$ は $|a|s_x$ となります。よって、変換後の相関係数は次のように求められます。
\begin{eqnarray}
\frac{as_{xy}}{|a|s_xs_y} = \frac{a}{|a|} \times \frac{s_{xy}}{s_xs_y}
\end{eqnarray}2つ目の式の $\times$ の後は、変換前の相関係数です。また、 $\times$ の前は $a\gt 0$ のときは $1$ で、 $a\lt 0$ のときは $-1$ となります。 a が正のときは、相関係数は変わらないんですね。

この結果も、定義を考えれば自然です。共分散は、「値と平均値との差」を掛け合わせて平均をとったものなので、各値が a 倍されれば、差も a 倍されるため、共分散も a 倍されます

相関係数は、「片方が増えたときにもう片方が増える」傾向を示すものでしたが、正の定数倍をしてもこの傾向はかわりません負の場合は、上下が逆転するので、相関係数の符号が変わる、ということですね。

もし、 $ax_k$ となるだけでなく、 $y_k$ も $ay_k$ に変換されるとします。同じように計算すれば、共分散は、それぞれ a 倍されるので、全体では $a^2$ 倍されることになります。また、それぞれの標準偏差は、 $|a|s_x$, $|a|s_y$ となるので、変換後の相関係数は
\begin{eqnarray}
\frac{a^2s_{xy}}{|a|s_x\cdot|a|s_y} = \frac{s_{xy}}{s_xs_y}
\end{eqnarray}となり、変化しないことがわかります。先ほどと違って、 a が負のときは、それぞれ上下反転するので、「片方が増えたときにもう片方が増える」傾向は元と同じになる、ということですね。

おわりに

ここでは、データの変換により、共分散や相関係数がどう変化するかを見てきました。まとめると、次のようになります。

データの変換による、共分散・相関係数への影響
2種類のデータに対し、片方のデータの値に定数を足しても、共分散・相関係数は変わらない。
両方のデータの値に定数を足しても、共分散・相関係数は変わらない。

2種類のデータに対し、片方のデータの値を $a$ 倍する( $a\ne 0$ )と、共分散は $a$ 倍され、相関係数は $\displaystyle \frac{a}{|a|}$ 倍される。
両方のデータの値を a 倍すると、共分散は $a^2$ 倍され、相関係数は変わらない。

定義するときに、どのように計算して出すかがわかっていれば、理解できるでしょう。

[広告]
対象者: 数学I
分野: データの分析
トピック: データの分析
レベル: 応用
キーワード: 相関係数, 共分散
更新日:2016/12/14