🏠 Home / 数学I / データの分析 / データの分析

【基本】相関係数の求め方

【基本】相関係数では、相関係数を求める式を見ましたが、具体的な計算はしていませんでした。ここでは、具体例を使って、相関係数を求めてみましょう。

📘 目次

10人の生徒が数学と英語の小テストを受けたとします。両方とも10点満点で、テストの結果が以下の通りだったとします。

生徒番号数学 x (点)英語 y (点)
145
275
313
425
5109
667
759
856
934
1077

このとき、数学と英語の点数の相関係数 r を求めてみます。

相関係数とは次のような定義でしたね(参考:【基本】相関係数)。

相関係数
2組の対応するデータの標準偏差を $s_x$, $s_y$ とし、共分散を $s_{xy}$ とするとき、相関係数 $r_{xy}$ は次の式で表される。\[ r_{xy} = \frac{s_{xy} }{s_x s_y} \]

定義からわかる通り、標準偏差(分散の平方根)や共分散を求めないといけません。これらは平均からの差(偏差)に着目した散らばりを表す指標なので、これらを求めるには、前もって平均を求めないといけません

ということで、平均を求めます。

数学の平均点 $\bar{x}$ と英語の平均点 $\bar{y}$ は次のようにして求められます。
\begin{eqnarray} \bar{x}&=& \frac{4+7+1+2+10+6+5+5+3+7}{10} = 5 \\[5pt] \bar{y}&=& \frac{5+5+3+5+9+7+9+6+4+7}{10} = 6 \\[5pt] \end{eqnarray}

続いて、標準偏差や共分散を求めるのですが、その前に偏差を計算しておいた方がいいです。「偏差⇒偏差の2乗⇒偏差の積」という順番で計算していきましょう。
(下の表のタイトルでは、 $X=x-\bar{x}$, $Y=y-\bar{y}$ とおいています)

番号数学
偏差
$X$
英語
偏差
$Y$
$X^2$$Y^2$偏差
の積
$XY$
1-1-1111
22-141-2
3-4-316912
4-3-1913
55325915
611111
703090
800000
9-2-2444
1021412

なかなかすごい表ですが、難しい計算をしているわけではありません。単純に引いたり掛けたりしているだけです。

次に分散を求めます。数学の点数の分散は、 $(x-\bar{x})^2$ を足して個数 $10$ で割れば求められるので、\[ \frac{1+4+16+9+25+1+0+0+4+4}{10}=6.4 \]となります。よって、数学の点数の標準偏差は $\sqrt{6.4}$ となります。

英語の点数の分散も同様に計算すると $3.6$ となり、標準偏差が $\sqrt{3.6}$ となることもわかります。

共分散は、偏差の積の平均で求められるので、上の表の一番右の数字の平均を出せばいいですね。\[ \frac{1-2+12+3+15+1+0+0+4+2}{10}=3.6 \]となります。

以上から、相関係数 r
\begin{eqnarray} r &=& \frac{3.6}{\sqrt{6.4}\times\sqrt{3.6} } \\[5pt] &=& \frac{36}{\sqrt{64}\times\sqrt{36} } \\[5pt] &=& \frac{36}{8\cdot 6} \\[5pt] &=& \frac{3}{4} \\[5pt] &=& 0.75 \end{eqnarray}と求められます。強い正の相関があることがわかります。

計算の省略

相関係数を求めるときに、こういう変換を行いました。
\begin{eqnarray} r &=& \frac{3.6}{\sqrt{6.4}\times\sqrt{3.6} } \\[5pt] &=& \frac{36}{\sqrt{64}\times\sqrt{36} } \\[5pt] \end{eqnarray}分母・分子に $10$ を掛けたわけですが、ここは少しだけ一般化できます。

相関係数の定義式を、偏差を使って書いてみます。

2組の対応するデータの値を $x_1, x_2,\cdots,x_n$ と $y_1,y_2,\cdots,y_n$ とし、それぞれの平均値を $\bar{x}$, $\bar{y}$ とします。このとき、共分散は\[ \frac{1}{n} \{ (x_1-\bar{x})(y_1-\bar{y}) +(x_2-\bar{x})(y_2-\bar{y}) +\cdots +(x_n-\bar{x})(y_n-\bar{y}) \} \]とかけ、標準偏差は\[ \sqrt{ \frac{1}{n} \{ (x_1-\bar{x})^2 +(x_2-\bar{x})^2 +\cdots +(x_n-\bar{x})^2 \} } \]などとかけるので、相関係数は
\begin{eqnarray} & & \frac{ \frac{1}{n} \{ (x_1-\bar{x})(y_1-\bar{y}) +\cdots +(x_n-\bar{x})(y_n-\bar{y}) } { \sqrt{ \frac{1}{n} \{ (x_1-\bar{x})^2 +\cdots +(x_n-\bar{x})^2 \} } \sqrt{ \frac{1}{n} \{ (y_1-\bar{y})^2 +\cdots +(y_n-\bar{y})^2 \} } } \\[5pt] &=& \frac{ (x_1-\bar{x})(y_1-\bar{y}) +\cdots +(x_n-\bar{x})(y_n-\bar{y}) } { \sqrt{ \{ (x_1-\bar{x})^2 +\cdots +(x_n-\bar{x})^2 \} \{ (y_1-\bar{y})^2 +\cdots +(y_n-\bar{y})^2 \} } } \\[5pt] \end{eqnarray}となります。 $\displaystyle \frac{1}{n}$ が消えています。つまり、上の計算では、分母・分子に $10$ を掛けましたが、そもそも $10$ で割る必要がなかったということです。

定義通りに計算すれば、相関係数を求めるためには、「偏差の2乗の和」や「偏差の積の和」を個数で割りますが、相関係数を求めるだけなら別に個数で割る必要がないんですね。

まー、それで計算が楽になるかというと、ほとんどなりませんが。

おわりに

ここでは、具体例を使って、相関係数を一から求めてみました。相関係数を求めるまでに、下準備がいろいろ必要で、計算は大変でした。

試験では、一から求めないといけない問題が出題される可能性もありますが、分散や標準偏差や共分散などが与えられている状態で相関係数を求める問題も出ることがあります。定義の式で使われているものは何か、しっかり確認しておきましょう。

関連するページ

YouTubeもやってます