【応用】データの変換で分散はどう変わるか

ここでは、データに定数を足したり定数を掛けたりすることによって、分散がどう変化するかを見ていきます。入試でも聞かれることがあるので、よく理解しておきましょう。

【広告】

データの変換と平均値

「データの変換によって分散がどう変化するか」を見る前に、平均値がどう変化するかを見てみましょう。

データの値が $x_1, x_2, \cdots , x_n$ で、平均値を $\bar{x}$ とします。 $\bar{x}$ は次の式を満たしています(参考:【基本】データの平均値)。\[ \bar{x}=\frac{x_1+x_2+\cdots +x_n}{n} \]

さて、もし、データの値が、すべて a だけ増えたとしましょう。つまり、各 $x_k$ が $x_k+a$ になるということです。このとき、平均値はどうなるでしょうか。

これは、計算しなくてもイメージできるかもしれませんね。例えば、あるテストの平均点が70点だったとします。しかし、出題ミスか何かで、全員の点数が5点増えることになったとしましょう。みんなの点数が5点増えるので、平均点も5点スライドして75点になるはずですね。

このイメージを計算によって確かめてみましょう。
\begin{eqnarray}
& &
\frac{(x_1+a)+(x_2+a)+\cdots +(x_n+a)}{n} \\[5pt] &=&
\frac{x_1+x_2+\cdots +x_n +na}{n} \\[5pt] &=&
\bar{x}+a \\[5pt] \end{eqnarray}最後の式から、変換後の平均値は、前の平均値に a を足したものであることがわかります。

a 倍のときも同様です。このときは
\begin{eqnarray}
& &
\frac{(ax_1)+(ax_2)+\cdots +(ax_n)}{n} \\[5pt] &=&
\frac{a(x_1+x_2+\cdots +x_n)}{n} \\[5pt] &=&
a\bar{x} \\[5pt] \end{eqnarray}となるので、変換後の平均値は、前の平均値に a を掛けたものになります。

まとめると次のようになります。

データの変換による、平均値への影響
すべてのデータの値を a だけ増やすと、平均値も a だけ増える。
すべてのデータの値を a 倍すると、平均値も a 倍される。

これを踏まえて、分散の場合を考えてみます。

【広告】

データの変換と分散

分散は次のようにして求めるんでしたね(参考:【基本】データの分散)。\[ \frac{1}{n}\left\{ (x_1-\bar{x})^2 +(x_2-\bar{x})^2 +\cdots +(x_n-\bar{x})^2 \right\} \]

まずは、先ほどと同じように、 $x_k$ が $x_k+a$ となった場合を考えましょう。このとき、平均値も a 増えるのでした。そのため、平均値は $\bar{x}+a$ となります。よって、上の式に出てくる $x_k-\bar{x}$ は $(x_k+a)-(\bar{x}+a)$ となりますが、これは $x_k-\bar{x}$ そのままです。同じ式になるので、変換後の分散は、変換前の分散と同じになります。

これはよく考えれば当たり前です。というのも、分散というのは、データの散らばりを表す指標でした。データ全体が同じように増えたり減ったりしても、散らばり方が大きくなったり小さくなったりするわけではありません。なので、定数を足しても、分散は変化しません。

次に、定数倍の場合を考えましょう。 $x_k$ が $ax_k$ と変換される場合ですね。このときは、平均値は $\bar{x}$ から $a\bar{x}$ に変わるのでした。そのため、変換後の分散は
\begin{eqnarray}
& &
\frac{1}{n}\left\{ (ax_1-a\bar{x})^2 +(ax_2-a\bar{x})^2 +\cdots +(ax_n-a\bar{x})^2 \right\} \\[5pt] &=&
\frac{1}{n}\left\{ a^2(x_1-\bar{x})^2 +a^2(x_2-\bar{x})^2 +\cdots +a^2(x_n-\bar{x})^2 \right\} \\[5pt] &=&
a^2 \times \frac{1}{n}\left\{ (x_1-\bar{x})^2 +(x_2-\bar{x})^2 +\cdots +(x_n-\bar{x})^2 \right\} \\[5pt] \end{eqnarray}となります。最後の式の分数の箇所は、変換前の分散ですね。つまり、変換後の分散は、変換前の分散の $a^2$ 倍になることがわかります。

これもよく考えると、当然です。分散はデータの散らばりを考えるために、「値と平均値との差の2乗」を利用しています。値が a 倍になれば、平均値の差も a 倍になるので、分散は $a^2$ 倍になります

標準偏差は分散のルートをとったものなので、今までの話から標準偏差の変化についてもわかります。定数を足しても、標準偏差は変わりません。定数 a を掛けると、標準偏差は $\sqrt{a^2}=|a|$ 倍されます。

まとめると、次のようになります。

データの変換による、分散・標準偏差への影響
すべてのデータの値を a だけ増やしても、分散・標準偏差は変わらない。
すべてのデータの値を a 倍すると、分散は $a^2$ 倍、標準偏差は $|a|$ 倍される。

例えば、 $ax_k+b$ と変換されれば、分散はどうなるでしょうか。順番に考えましょう。定数を足しても分散には影響しないので、 $ax_k+b$ という変換と $ax_k$ という変換で、分散は変わりません。 $ax_k$ という変換で分散は $a^2$ 倍されます。合わせると、 $ax_k+b$ という変換によって、分散は $a^2$ 倍されることがわかります。

おわりに

ここでは、データの変換により、平均値や分散・標準偏差がどう変化するかを見てきました。定義の式に戻って変形すればわかりますが、そもそも何を見るための指標だったかを考えても、ある程度推測することができます。両方の見方ができるようになっておきましょう。