🏠 Home / 数学I / データの分析 / データの散らばり

【基本】データの分散

🕒 2016/11/13 🔄 2023/05/01

データの散らばりを表すものとして、中央値の考えから派生した四分位数があることを見ました。ここでは、平均値の考えから派生した「分散」という指標を見ていきます。

📘 目次

データの分散

【基本】四分位数で見たヒストグラムをもう一度見てみます。テストの点数と人数との関係を表しています。

計算してみるとわかりますが、これらの平均値と中央値はともに5.5点です。しかし、データの散らばりは違いますよね。これらを区別するにはどうすればいいでしょうか。

中央値に関しては、四分位数を考えることで、データの散らばりを考えることができました。平均値に関しても、データの散らばりを表す指標があると便利です。

そこでよく使われるのが、分散(variance)というものです。これは、「各数値と平均値との距離」に着目した指標で、次のように計算します。

分散

データの値が $x_1,x_2,x_3,\cdots,x_n$ で、この平均値が $\bar{x}$ のとき、次の値を分散と呼ぶ。
\[ \frac{1}{n}\left\{ (x_1-\bar{x})^2 +(x_2-\bar{x})^2 +\cdots +(x_n-\bar{x})^2 \right\} \]

「平均との差をそれぞれ2乗し、足して個数で割る」ということですね。平均との差が大きくなればなるほど、分散の値は大きくなり、そのとき「データの散らばり具合は大きい」と考えられるので、「分散の大きさは、データの散らばり具合の大きさを表す」と考えられます。

具体的に計算してみましょう。上の例で、グループＡの点数は次のようになっていました。
　Ａ：1,2,3,4,5,6,7,8,9,10
であり、平均値は5.5なので、分散は\[ \frac{4.5^2+3.5^2+2.5^2+1.5^2+0.5^2+0.5^2+1.5^2+2.5^2+3.5^2+4.5^2}{10} = 8.25 \]と計算できます。グループＢの点数は
　Ｂ：4,4,5,5,5,6,6,6,7,7
なので、分散は\[ \frac{1.5^2+1.5^2+0.5^2+0.5^2+0.5^2+0.5^2+0.5^2+0.5^2+1.5^2+1.5^2}{10} = 1.05 \]と計算できます。グループＣの点数は
　Ｃ：1,3,5,5,5,6,6,7,7,10
なので、分散は\[ \frac{4.5^2+2.5^2+0.5^2+0.5^2+0.5^2+0.5^2+0.5^2+1.5^2+1.5^2+4.5^2}{10} = 5.25 \]と計算できます。

以上から、分散は、 $8.25, 1.05, 5.25$ と計算できました。グループＡ、Ｃ、Ｂの順に大きく、グラフから見た散らばり具合の感覚とも一致しています。