【基本】標本平均の分布
ここでは、標本平均の分布についてみていきます。
標本平均
母集団の特徴を表すものとして、一番代表的なものは平均ですよね。生徒が母集団の場合は、身長でもテストの点数でも、とりあえず平均がどうなっているかを知りたいケースが多いです。
全員分を調べることが難しい場合は、一部だけをピックアップして推測する方法があります。いくつか標本を抽出して、それらを利用する方法ですね。(参考:【基本】全数調査と標本調査)
母平均を推測したい場合には、これらの標本をどうすればいいかというと、まずは単純に平均をとればよさそうだと予想できます。
母集団から大きさ $n$ の標本を無作為抽出するとします。この標本の変量を $X_1,X_2,\cdots,X_n$ とするとき、これらの平均を $\bar{X}$ とします。つまり、\[ \bar{X}=\frac{X_1+X_2+\cdots+X_n}{n} \]ということです。この $\bar{X}$ のことを、標本平均(sample mean) といいます。
例えば、0, 1, 2, 3 と書かれたカードが、それぞれ、4, 3, 2, 1 枚ずつあるとします。この10枚のカードを母集団とし、カードに書かれた数字を変量 $X$ とすると、$X$ の母集団分布は次のようになります。
$X$ | $0$ | $1$ | $2$ | $3$ | 計 |
---|---|---|---|---|---|
$P$ | $\dfrac{4}{10}$ | $\dfrac{3}{10}$ | $\dfrac{2}{10}$ | $\dfrac{1}{10}$ | $1$ |
ちなみに、 $X$ の期待値(平均)は次のようになります。
\begin{eqnarray}
E(X)=\frac{0+3+4+3}{10}=1
\end{eqnarray}
さて、このカード全体から1枚を引いて元に戻す、という操作を2回やって、1回目・2回目の数字を $X_1,X_2$ とおくことにします。すると、標本平均 $\bar{X}$ の分布は次のようになります。
$\bar{X}$ | $0$ | $\frac{1}{2}$ | $1$ | $\frac{3}{2}$ | $2$ | $\frac{5}{2}$ | $3$ | 計 |
---|---|---|---|---|---|---|---|---|
$P$ | $\dfrac{16}{100}$ | $\dfrac{24}{100}$ | $\dfrac{25}{100}$ | $\dfrac{20}{100}$ | $\dfrac{10}{100}$ | $\dfrac{4}{100}$ | $\dfrac{1}{100}$ | $1$ |
$\bar{X}$ の期待値(平均)を計算すると、次のようになります。
\begin{eqnarray}
E(\bar{X})
&=&
\frac{0+12+25+30+20+10+3}{100} \\[5pt]
&=&
\frac{37+50+13}{100} =1 \\[5pt]
\end{eqnarray}先ほど計算した $X$ の期待値と一致しています。また、 $X$ の分布と $\bar{X}$ の分布を比べると、$\bar{X}$ のほうが、期待値 $1$ から離れた値をとる確率が小さくなり、 $1$ に近い値をとる確率が大きくなっていることがわかります。
以下では、これらの性質を一般的なケースで確かめてみます。
標本平均の平均
無作為抽出した標本に対して、平均をとったものを標本平均というのでした。これを $\bar{X}$ とすると、この $\bar{X}$ も確率変数となります。なので、期待値(平均)を考えることができます。
「平均」が2個出てくるのが気持ち悪いですが、「標本平均の平均」はこの分野ではよく出てくる表現です。
母平均が $m$ の母集団から復元抽出によって大きさ $n$ の標本を抽出するとします。このとき、標本の変量を $X_1,X_2,\cdots,X_n$ とすると、それぞれの確率変数の分布は母集団分布と一致するので、期待値(平均)も一致します。つまり、\[ E(X_i)=m \]となります。
また、和の平均は平均の和であること(参考:【基本】確率変数の和の期待値)や、定数倍は外に出せること(参考:【基本】確率変数の変換)から、次のように標本平均の平均を求めることができます。
\begin{eqnarray}
E(\bar{X})
&=&
E\left(\frac{X_1+X_2+\cdots+X_n}{n}\right) \\[5pt]
&=&
\frac{1}{n} E(X_1+X_2+\cdots+X_n) \\[5pt]
&=&
\frac{1}{n} E(X_1)+E(X_2)+\cdots+E(X_n) \\[5pt]
&=&
\frac{1}{n} \cdot nm \\[5pt]
&=&
m
\end{eqnarray}つまり、標本平均の平均は、母平均と一致することがわかります。これはイメージと合っていると感じる人も多いと思います。
標本平均の標準偏差
続いて、標本平均の標準偏差を求めてみます。母標準偏差を $\sigma$ とすると、$X_i$ の標準偏差も $\sigma$ となります。
$X_i,X_j$ が互いに独立であれば、\[ V(X_i+X_j)=V(X_i)+V(X_j) \]が成り立ちます(参考:【基本】独立な確率変数の和の分散)。このことや、定数倍の計算を使うと、次のように標本平均の標準偏差をもとめることができます。
\begin{eqnarray}
\sigma\left(\bar{X}\right)
&=&
\sqrt{V\left(\frac{X_1+X_2+\cdots+X_n}{n}\right)} \\[5pt]
&=&
\sqrt{\frac{1}{n^2} V(X_1+X_2+\cdots+X_n)} \\[5pt]
&=&
\frac{1}{n} \sqrt{V(X_1)+V(X_2)+\cdots+V(X_n)} \\[5pt]
&=&
\frac{1}{n} \sqrt{n \sigma^2} \\[5pt]
&=&
\frac{\sigma}{\sqrt{n}}
\end{eqnarray}標準偏差の場合は、 $\sqrt{n}$ で割ったものになるんですね。
大数の法則
先ほど、標本平均の標準偏差が $\dfrac{\sigma}{\sqrt{n}}$ になることを見ました。この式からわかることは、標本の大きさ $n$ を大きくすればするほど、標本平均のバラツキは減っていくということです。バラツキが減って、母平均に近づいていきます。
これはイメージにも合うでしょう。初めのうちは外れ値のような値がでることがあっても、サンプルの数を増やしていけば、平均した値はブレがおさまっていく、というのは、経験からも納得できる結果だと思います。
サイコロをふって1の目が出る回数の割合を考えたときに、ふる回数を増やせば増やすほど、割合が $\dfrac{1}{6}$ に近づいていく、というのも、同じタイプの例です。(1の目が出たら $X_i=1$、それ以外は $X_i=0$ とすると、標本平均は1の目が出る割合になります)
このように、「標本の大きさ $n$ を大きくすると、標本平均が母平均に近づいていく」ことを、大数の法則(たいすうのほうそく、law of large numbers) といいます。
おわりに
ここでは、標本平均とその分布、平均、標準偏差について見てきました。もう一度まとめておきます。
標本の大きさ $n$ が大きくなれば、標本平均のバラツキが小さくなっていく、というイメージももっておくと役立つでしょう。