【基本】確率変数の分散
ここでは、確率変数の分散や標準偏差について見ていきます。以前、データの分析で学んだ内容に似ていますが、少し違っているので注意しましょう。
確率変数の分散
データの分析の【基本】データの分散では、データの散らばり具合を見るために、分散を導入しました。平均からの差の2乗を足して、足した個数で割って求めるのでしたね。
確率変数の世界にも、分布の散らばり具合を比較するために、分散があります。
1, 2, 3, 4, 5 の数字が書かれているカードが1枚ずつ入っている袋Aがあるとします。袋Bには、1, 3, 3, 4, 4 というふうに合計5枚のカードが入っていたとしましょう。袋A, B からカードを1枚引いたときのカードに書かれている数を $X$, $Y$ すると、期待値は次のようになります。
\begin{eqnarray}
E(X)
&=&
1\cdot\frac{1}{5}+2\cdot\frac{1}{5}+3\cdot\frac{1}{5}+4\cdot\frac{1}{5}+5\cdot\frac{1}{5} = 3 \\[5pt]
E(Y)
&=&
1\cdot\frac{1}{5}+3\cdot\frac{2}{5}+4\cdot\frac{2}{5} = 3
\end{eqnarray}同じ値ですね。
しかし、両者では結果の散らばり具合は異なります。Bのほうが、期待値に近い値が多そうです。これを数値として表すために、「期待値との差の2乗」について考えましょう。
つまり、 $(X-3)^2$ と $(Y-3)^2$ を考える、ということです。これらもまた確率変数になります。これらの期待値を考えることで「どれくらい散らばっていると期待できるか」が計算できます。具体的に計算すると次のようになります。
\begin{eqnarray}
E((X-3)^2)
&=&
(-2)^2\cdot\frac{1}{5}+(-1)^2\cdot\frac{1}{5}+0^2\cdot\frac{1}{5}+1^2\cdot\frac{1}{5}+2^2\cdot\frac{1}{5} \\[5pt]
&=& 2 \\[5pt]
E((Y-3)^2)
&=&
(-2)^2\cdot\frac{1}{5}+0^2\cdot\frac{2}{5}+1^2\cdot\frac{2}{5} = \frac{6}{5}
\end{eqnarray}確かに、$X$ のほうが値が大きくなりましたね。
このように、確率変数 $X$ に対して、期待値 $m$ との差の2乗の期待値、つまり、
\begin{eqnarray}
& &
E((X-m)^2) \\[5pt]
&=&
\sum_{k=1}^n (x_k-m)^2p_k \\[5pt]
&=&
(x_1-m)^2p_1+(x_2-m)^2p_2+\cdots+(x_n-m)^2p_n
\end{eqnarray}のことを、 $X$ の分散(variance) といいます。この v をとって、 $V(X)$ と表します。
分散は $(x_k-m)^2p_k$ という $0$ 以上の値を足して求められるので、分散は必ず $0$ 以上の値になります。また、分散の値が小さいということは、期待値から離れている値をとる確率が低いことを表しており、分布が期待値の近くに集中していることを表しています。
データの分析の分野でも分散が出てきますが、ここで見た確率変数の分散の式で、 $p_k=\dfrac{1}{n}$ とすれば、データの分散の式と一致します。
確率変数の標準偏差
分散は、分布の散らばりを表しているのですが、2乗を使っているため、もとの $X$ とは単位が異なっています。そこで、単位をそろえるため、 $\sqrt{V(X)}$ を使うこともあります。これを、標準偏差(standard deviation) といいます。
標準偏差は、 $\sigma(X)$ で表します。この $\sigma$ は、standard deviation の頭文字 s に対応するギリシャ文字で、シグマと読みます。和を表すときに使う記号 $\sum$ の小文字です。
先ほどの例でいれば、 $\sigma(Y)=\sqrt{\dfrac{6}{5}}=\dfrac{\sqrt{30}}{5}$ ということです。
おわりに
ここでは、確率変数の分散と標準偏差について見てきました。もう一度まとめておきます。
\begin{eqnarray} V(X) &=& E((X-m)^2) \\[5px] &=& \sum_{k=1}^n (x_k-m)^2p_k \\[5pt] \sigma(X) &=& \sqrt{V(X)} \\[5px] \end{eqnarray}
データの分析の定義と少し異なっている点に注意しましょう。平均との差の2乗を考える点は同じですが、確率変数の場合は、確率を掛けないといけません。