【基本】データの分散

データの散らばりを表すものとして、中央値の考えから派生した四分位数があることを見ました。ここでは、平均値の考えから派生した「分散」という指標を見ていきます。

【広告】

データの分散

【基本】四分位数で見たヒストグラムをもう一度見てみます。テストの点数と人数との関係を表しています。

basic-quartile-01

basic-quartile-02

basic-quartile-03

計算してみるとわかりますが、これらの平均値と中央値はともに5.5点です。しかし、データの散らばりは違いますよね。これらを区別するにはどうすればいいでしょうか。

中央値に関しては、四分位数を考えることで、データの散らばりを考えることができました。平均値に関しても、データの散らばりを表す指標があると便利です。

そこでよく使われるのが、分散(variance)というものです。これは、「各数値と平均値との距離」に着目した指標で、次のように計算します。

分散
データの値が $x_1,x_2,x_3,\cdots,x_n$ で、この平均値が $\bar{x}$ のとき、次の値を分散と呼ぶ。
\[ \frac{1}{n}\left\{ (x_1-\bar{x})^2 +(x_2-\bar{x})^2 +\cdots +(x_n-\bar{x})^2 \right\} \]

「平均との差をそれぞれ2乗し、足して個数で割る」ということですね。平均との差が大きくなればなるほど、分散の値は大きくなり、そのとき「データの散らばり具合は大きい」と考えられるので、「分散の大きさは、データの散らばり具合の大きさを表す」と考えられます。

具体的に計算してみましょう。上の例で、グループAの点数は次のようになっていました。
 A:1,2,3,4,5,6,7,8,9,10
であり、平均値は5.5なので、分散は\[ \frac{4.5^2+3.5^2+2.5^2+1.5^2+0.5^2+0.5^2+1.5^2+2.5^2+3.5^2+4.5^2}{10} = 8.25 \]と計算できます。グループBの点数は
 B:4,4,5,5,5,6,6,6,7,7
なので、分散は\[ \frac{1.5^2+1.5^2+0.5^2+0.5^2+0.5^2+0.5^2+0.5^2+0.5^2+1.5^2+1.5^2}{10} = 1.05 \]と計算できます。グループCの点数は
 C:1,3,5,5,5,6,6,7,7,10
なので、分散は\[ \frac{4.5^2+2.5^2+0.5^2+0.5^2+0.5^2+0.5^2+0.5^2+1.5^2+1.5^2+4.5^2}{10} = 5.25 \]と計算できます。

以上から、分散は、 $8.25, 1.05, 5.25$ と計算できました。グループA、C、Bの順に大きく、グラフから見た散らばり具合の感覚とも一致しています。

標準偏差

分散は、「平均との差をそれぞれ2乗し、足して個数で割る」ことで求められます。ところで、これによって得られる数値の「単位」は何でしょうか。

平均値であれば、数値を足して数値の個数で割っているだけなので、元のデータと同じ単位となります。しかし、分散は二乗しているため、単位が少しおかしくなってしまいます。上の例であれば、「点数の2乗」のようなものになってしまいます。

そのため、分散のルートをとったものを考えることも多いです。これを標準偏差(ひょうじゅんへんさ、standard deviation)といいます。

標準偏差
データの値 $x_1,x_2,x_3,\cdots,x_n$ の分散が $s^2$ のとき、 $s\ (s\geqq 0)$ を標準偏差という。

上の例であれば、グループAの標準偏差は、$2.872\cdots$ となります。試験に出てくるときには、ルートがきれいに外せるか、小数点第○位まで求めるという形がほとんどです。

なお、「偏差」とは、分散を計算するときに出てきた、「平均値との差」のことをいいます。

おわりに

ここでは、データの散らばりを表す指標である、分散についてみてきました。また、標準偏差についても触れました。

これらは平均値から派生したもので、平均値と同じようにすべての数値が反映されます。そのため、極端な値があると、大きく影響を受けてしまう、といった特徴も同じように持っていることに注意しましょう。