なかけんの数学ノート

【発展】分散はなぜ2乗して求めるのか

ここでは、分散の定義についてもう一度考えてみます。分散は「”偏差(平均との差)の2乗”の平均値」で定義されますが、2乗しないとどうなるのか、2乗するとどうなるのか、絶対値ならどうなるのか、について考えてみたいと思います。

[広告]

2乗しないとどうなるのか

【基本】データの分散で見た通り、分散の定義は次の通りです。\[ \frac{1}{n}\left\{ (x_1-\bar{x})^2 +(x_2-\bar{x})^2 +\cdots +(x_n-\bar{x})^2 \right\} \]散らばり具合を示すことを目的とした、「各数値と平均値との距離に着目した指標」ということで、こういう定義になっています。しかし、そもそもなぜ2乗しているのでしょうか

もし2乗しなければ、定義式の波かっこの中では、次のようなことが起こってしまいます。
\begin{eqnarray}
& &
(x_1-\bar{x}) +(x_2-\bar{x}) +\cdots +(x_n-\bar{x}) \\
&=&
(x_1+x_2+\cdots +x_n)-n\bar{x}
\end{eqnarray}平均値の定義から、この値は0になってしまいます。平均値より大きい部分(偏差が正のもの)と平均値より小さい部分(偏差が負のもの)がすべて打ち消しあって消えてしまうんですね。

2乗しなければ意味のない値になってしまいます。

2乗するとどうなるのか

分散の定義を別の角度から見てみましょう。分散の定義が、「各数値と平均値との距離」という考えによくマッチしていることを確認してみます。

定義式の波かっこの中を取り出してきて、 $\bar{x}$ を x に変え、次のように書いてみます。\[ f(x) = (x_1-x)^2 +(x_2-x)^2 +\cdots +(x_n-x)^2 \]これは、「各数値からの距離の二乗の和」を表しています。距離をはかる出発点を x とおいて x の関数だと考えるわけですね。 $x_1$ から $x_n$ までの値が与えられている状況で、 x が自由に動くとき、 $f(x)$ がいつ最小値をとるかを考えてみましょう。

この式は、次のように変形できます。
\begin{eqnarray}
f(x)
&=&
(x_1-x)^2 +(x_2-x)^2 +\cdots +(x_n-x)^2 \\[5pt]
&=&
(x_1^2-2xx_1+x^2) +(x_2^2-2xx_2+x^2) +\cdots +(x_n^2-2xx_n+x^2) \\[5pt]
&=&
nx^2 -2x(x_1+x_2+\cdots +x_n)+(x_1^2+x_2^2+\cdots +x_n^2) \\[5pt]
&=&
n\left( x -\frac{x_1+x_2+\cdots +x_n}{n} \right)^2 -\frac{(x_1+x_2+\cdots +x_n)^2}{n} \\[5pt]
& & +(x_1^2+x_2^2+\cdots +x_n^2) \\[5pt]
\end{eqnarray}これから、\[ x=\frac{x_1+x_2+\cdots +x_n}{n} \]のときに、$f(x)$ が最小値をとることがわかります。この式をよく見ると、 平均値の式になっています。「各数値からの距離の二乗の和が一番小さくなるのが平均値のとき」ということから、分散の定義式が「各数値と平均値との距離」という考えによくマッチしていることがわかります。

絶対値だとどうなるのか

冒頭で見たように、分散の定義式で、2乗をせずに偏差をそのまま足すと、正負が打ち消しあって0になってしまうんでしたね。一方、2乗すれば、正負は打ち消しあわないので都合がいい上、「平均値との距離」という考えにマッチしていることもわかりました。

しかし、正負を打ち消しあわないようにしたいなら、2乗じゃなくて絶対値でもいいのではないか、という考えもあるでしょう。つまり、次の式で散らばり具合を測ってもいいのではないかと。\[ \frac{1}{n} ( |x_1-\bar{x}| +|x_2-\bar{x}| +\cdots +|x_n-\bar{x}| ) \]

ところが、この式だと、あまりうまくいきません。先ほどと同じように、平均値のところを x に変えて、かっこの中だけを取り出した関数\[ g(x) = |x_1-x| +|x_2-x| +\cdots +|x_n-x| \]を考えてみましょう。

シンプルな状況で考えてみます。データの個数が3つだけで、 $x_1=1$, $x_2=2$, $x_3=6$ だったとしましょう。このとき、平均値は $3$ なので、試しに上の関数に $x=3$ を代入してみると $g(3)=6$ となります。

一方、中央値を代入してみるとどうでしょうか。 $x=2$ を代入すると $g(2)=5$ となり、平均値を入れたときよりも小さくなってしまいます

実は、 $g(x)$ は x中央値のときに最小値をとることが知られています(ただし、中央値のときだけとは限りません)。平均値で最小値をとるとは限りません。そのため、あまり「平均値からの距離」とはマッチしない式であることがわかります。

これ以外にも、分散の定義で「絶対値ではなく2乗を使う」理由は、計算がしやすい(場合分けせずに展開できるとか)とか、他にきれいな性質を満たす(確率の分野などで学びます)とか、いろいろあります。2乗を使った方が、何かといいことがあるので、この式を使った分散がよく使われます。(定義式に絶対値を使っているものには「平均絶対誤差」などという名前がついていますが、分散に比べて使用頻度は高くありません)

おわりに

ここでは、分散の定義式をもう一度詳しく見てみました。2乗することには意味があり、絶対値を使うよりも都合がいいことが多いので、2乗して定義される分散がよく使われています。

[広告]
対象者: 数学I
分野: データの分析
トピック: データの分析
レベル: 発展
キーワード: 分散
更新日:2017/01/23