【標準】データの分散

【基本】データの分散では、データの散らばりを表す指標である「分散」の紹介をしました。ここでは、分散のもう一つの求め方を紹介します。

【広告】

分散に関する復習

データの値が、 $x_1,x_2,\cdots,x_n$ のとき、平均値 $\bar{x}$ は次のように計算できるんでしたね(参考:【基本】データの平均値)。\[ \bar{x} = \frac{x_1+x_2+\cdots+x_n}{n} \]そして、この $\bar{x}$ を使って、分散は次のように計算できるのでした(【基本】データの分散)。\[ \frac{1}{n}\left\{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2\right\} \]これが定義通りの計算です。

分散のもう一つの求め方

ただ、実際に計算する場合、偏差(平均値との差)が小数や分数になることもあり、そうなると計算が面倒になりやすいです。例として、【基本】データの分散のグループCの計算をもう一度見てみましょう。データの値は次のようになっていました。
 C:1,3,5,5,5,6,6,7,7,10
この平均値は $5.5$ なので、分散を定義通り計算すると\[ \frac{4.5^2+2.5^2+0.5^2+0.5^2+0.5^2+0.5^2+0.5^2+1.5^2+1.5^2+4.5^2}{10} = 5.25 \]となります。小数が10個も出てくるので、少し面倒に感じるかもしれません。

そこで、元の定義式を次のように変形してみます。
\begin{eqnarray}
& &
\frac{1}{n}\left\{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2\right\} \\[5pt] &=&
\frac{1}{n}\left\{(x_1^2-2x_1\bar{x}+\bar{x}^2)+(x_2^2-2x_2\bar{x}+\bar{x}^2)+\cdots +(x_n^2-2x_n\bar{x}+\bar{x}^2)\right\} \\[5pt] &=&
\frac{1}{n}\left\{(x_1^2+x_2^2+\cdots+x_n^2) -2\bar{x}(x_1+x_2+\cdots+x_n)+n\bar{x}^2\right\} \\[5pt] \end{eqnarray}ここで、平均値の定義を見ると、\[ x_1+x_2+\cdots+x_n=n\bar{x} \]となることがわかるので、上の式は次と等しくなります。
\begin{eqnarray}
& &
\frac{1}{n}\left\{(x_1^2+x_2^2+\cdots+x_n^2) -2\bar{x}\cdot n\bar{x}+n\bar{x}^2\right\} \\[5pt] &=&
\frac{1}{n}\left\{(x_1^2+x_2^2+\cdots+x_n^2) -n\bar{x}^2\right\} \\[5pt] &=&
\frac{1}{n}(x_1^2+x_2^2+\cdots+x_n^2) -\bar{x}^2 \\[5pt] \end{eqnarray}式の前半部分は、値を2乗して足して個数で割ったものです。なので、この式全体を言葉で説明すると、「2乗の平均値 引く 平均値の2乗」となります。

上で求めた式を試してみましょう。

先ほどみた例をもう一度計算しなおしてみます。データの値は次のようになっていました。
 C:1,3,5,5,5,6,6,7,7,10
この「2乗の平均値」を求めてみると、次のようになります。\[ \frac{1^2+3^2+5^2+5^2+5^2+6^2+6^2+7^2+7^2+10^2}{10}=35.5 \]平均値が $5.5$ なので、分散は\[ 35.5-5.5^2=5.25 \]と計算できます。定義通りに計算したものと合っていますね。

平均値がきれいな数字ならよさがわかりにくいです。しかし、小数や分数になる場合には、ここで紹介したやり方のほうが計算が楽になることが多いです。

おわりに

ここでは、分散のもう一つの求め方を紹介しました。具体的な数値で計算する場合は、元の定義よりもここで紹介した計算方法の方が、計算しやすいことが多いです。定義の式と合わせて、どちらも覚えておきましょう。

「簡単に計算できることが多いなら、こっちだけを教えてくれればいいんじゃないか」と思うかもしれません。しかし、分散の意味、データの散らばりをどう表そうとしているかを考えれば、定義の式でまず理解するのがいいと思います。