🏠 Home / 数学I / データの分析 / データの散らばり

【発展】分散はなぜ2乗して求めるのか

ここでは、分散の定義についてもう一度考えてみます。分散は「"偏差(平均との差)の2乗"の平均値」で定義されますが、2乗しないとどうなるのか、2乗するとどうなるのか、絶対値ならどうなるのか、について考えてみたいと思います。

📘 目次

2乗しないとどうなるのか

【基本】データの分散で見た通り、分散の定義は次の通りです。\[ \frac{1}{n}\left\{ (x_1-\bar{x})^2 +(x_2-\bar{x})^2 +\cdots +(x_n-\bar{x})^2 \right\} \]散らばり具合を示すことを目的とした、「各数値と平均値との距離に着目した指標」ということで、こういう定義になっています。しかし、そもそもなぜ2乗しているのでしょうか

もし2乗しなければ、定義式の波かっこの中では、次のようなことが起こってしまいます。
\begin{eqnarray} & & (x_1-\bar{x}) +(x_2-\bar{x}) +\cdots +(x_n-\bar{x}) \\ &=& (x_1+x_2+\cdots +x_n)-n\bar{x} \end{eqnarray}平均値の定義から、この値は0になってしまいます。平均値より大きい部分(偏差が正のもの)と平均値より小さい部分(偏差が負のもの)がすべて打ち消しあって消えてしまうんですね。

2乗しなければ意味のない値になってしまいます。

2乗するとどうなるのか

分散の定義を別の角度から見てみましょう。分散の定義が、「各数値と平均値との距離」という考えによくマッチしていることを確認してみます。

定義式の波かっこの中を取り出してきて、 $\bar{x}$ を x に変え、次のように書いてみます。\[ f(x) = (x_1-x)^2 +(x_2-x)^2 +\cdots +(x_n-x)^2 \]これは、「各数値からの距離の二乗の和」を表しています。距離をはかる出発点を x とおいて x の関数だと考えるわけですね。 $x_1$ から $x_n$ までの値が与えられている状況で、 x が自由に動くとき、 $f(x)$ がいつ最小値をとるかを考えてみましょう。

この式は、次のように変形できます。
\begin{eqnarray} f(x) &=& (x_1-x)^2 +(x_2-x)^2 +\cdots +(x_n-x)^2 \\[5pt] &=& (x_1^2-2xx_1+x^2) +(x_2^2-2xx_2+x^2) +\cdots +(x_n^2-2xx_n+x^2) \\[5pt] &=& nx^2 -2x(x_1+x_2+\cdots +x_n)+(x_1^2+x_2^2+\cdots +x_n^2) \\[5pt] &=& n\left( x -\frac{x_1+x_2+\cdots +x_n}{n} \right)^2 -\frac{(x_1+x_2+\cdots +x_n)^2}{n} \\[5pt] & & +(x_1^2+x_2^2+\cdots +x_n^2) \\[5pt] \end{eqnarray}これから、\[ x=\frac{x_1+x_2+\cdots +x_n}{n} \]のときに、$f(x)$ が最小値をとることがわかります。この式をよく見ると、 平均値の式になっています。「各数値からの距離の二乗の和が一番小さくなるのが平均値のとき」ということから、分散の定義式が「各数値と平均値との距離」という考えによくマッチしていることがわかります。

絶対値だとどうなるのか

冒頭で見たように、分散の定義式で、2乗をせずに偏差をそのまま足すと、正負が打ち消しあって0になってしまうんでしたね。一方、2乗すれば、正負は打ち消しあわないので都合がいい上、「平均値との距離」という考えにマッチしていることもわかりました。

しかし、正負を打ち消しあわないようにしたいなら、2乗じゃなくて絶対値でもいいのではないか、という考えもあるでしょう。つまり、次の式で散らばり具合を測ってもいいのではないかと。\[ \frac{1}{n} ( |x_1-\bar{x}| +|x_2-\bar{x}| +\cdots +|x_n-\bar{x}| ) \]

ところが、この式だと、あまりうまくいきません。先ほどと同じように、平均値のところを x に変えて、かっこの中だけを取り出した関数\[ g(x) = |x_1-x| +|x_2-x| +\cdots +|x_n-x| \]を考えてみましょう。

シンプルな状況で考えてみます。データの個数が3つだけで、 $x_1=1$, $x_2=2$, $x_3=6$ だったとしましょう。このとき、平均値は $3$ なので、試しに上の関数に $x=3$ を代入してみると $g(3)=6$ となります。

一方、中央値を代入してみるとどうでしょうか。 $x=2$ を代入すると $g(2)=5$ となり、平均値を入れたときよりも小さくなってしまいます

実は、 $g(x)$ は x中央値のときに最小値をとることが知られています(ただし、中央値のときだけとは限りません)。平均値で最小値をとるとは限りません。そのため、あまり「平均値からの距離」とはマッチしない式であることがわかります。

これ以外にも、分散の定義で「絶対値ではなく2乗を使う」理由は、計算がしやすい(場合分けせずに展開できるとか)とか、他にきれいな性質を満たす(確率の分野などで学びます)とか、微分できる(微分積分の分野で学びます)など、いろいろあります。2乗を使った方が、何かといいことがあるので、この式を使った分散がよく使われます。(定義式に絶対値を使っているものには「平均絶対誤差」などという名前がついていますが、分散に比べて使用頻度は高くありません)

おわりに

ここでは、分散の定義式をもう一度詳しく見てみました。2乗することには意味があり、絶対値を使うよりも都合がいいことが多いので、2乗して定義される分散がよく使われています。

関連するページ

YouTubeもやってます

チャンネル登録はコチラから (以下は、動画のサンプルです)
慶應義塾大学薬学部2024年度数学第1問5 同志社大学文系2024年度数学第1問3 昭和大学医学部I期2024年度数学第2問 兵庫医科大学2024年度数学第3問 共通テスト2B2024年度第3問2のヒントについて 久留米大学医学部推薦2024年度数学第4問