【基本】標本平均の分布

🕒 2023/05/31 🔄 2023/06/07

ここでは、標本平均の分布についてみていきます。

📘 目次

標本平均

母集団の特徴を表すものとして、一番代表的なものは平均ですよね。生徒が母集団の場合は、身長でもテストの点数でも、とりあえず平均がどうなっているかを知りたいケースが多いです。

全員分を調べることが難しい場合は、一部だけをピックアップして推測する方法があります。いくつか標本を抽出して、それらを利用する方法ですね。（参考：【基本】全数調査と標本調査）

母平均を推測したい場合には、これらの標本をどうすればいいかというと、まずは単純に平均をとればよさそうだと予想できます。

母集団から大きさ $n$ の標本を無作為抽出するとします。この標本の変量を $X_1,X_2,\cdots,X_n$ とするとき、これらの平均を $\bar{X}$ とします。つまり、\[ \bar{X}=\frac{X_1+X_2+\cdots+X_n}{n} \]ということです。この $\bar{X}$ のことを、標本平均(sample mean) といいます。

例えば、0, 1, 2, 3 と書かれたカードが、それぞれ、4, 3, 2, 1 枚ずつあるとします。この10枚のカードを母集団とし、カードに書かれた数字を変量 $X$ とすると、$X$ の母集団分布は次のようになります。

$X$	$0$	$1$	$2$	$3$	計
$P$	$\dfrac{4}{10}$	$\dfrac{3}{10}$	$\dfrac{2}{10}$	$\dfrac{1}{10}$	$1$

ちなみに、 $X$ の期待値（平均）は次のようになります。
\begin{eqnarray} E(X)=\frac{0+3+4+3}{10}=1 \end{eqnarray}

さて、このカード全体から1枚を引いて元に戻す、という操作を2回やって、1回目・2回目の数字を $X_1,X_2$ とおくことにします。すると、標本平均 $\bar{X}$ の分布は次のようになります。

$\bar{X}$	$0$	$\frac{1}{2}$	$1$	$\frac{3}{2}$	$2$	$\frac{5}{2}$	$3$	計
$P$	$\dfrac{16}{100}$	$\dfrac{24}{100}$	$\dfrac{25}{100}$	$\dfrac{20}{100}$	$\dfrac{10}{100}$	$\dfrac{4}{100}$	$\dfrac{1}{100}$	$1$

$\bar{X}$ の期待値（平均）を計算すると、次のようになります。
\begin{eqnarray} E(\bar{X}) &=& \frac{0+12+25+30+20+10+3}{100} \\[5pt] &=& \frac{37+50+13}{100} =1 \\[5pt] \end{eqnarray}先ほど計算した $X$ の期待値と一致しています。また、 $X$ の分布と $\bar{X}$ の分布を比べると、$\bar{X}$ のほうが、期待値 $1$ から離れた値をとる確率が小さくなり、 $1$ に近い値をとる確率が大きくなっていることがわかります。

以下では、これらの性質を一般的なケースで確かめてみます。

標本平均の平均

無作為抽出した標本に対して、平均をとったものを標本平均というのでした。これを $\bar{X}$ とすると、この $\bar{X}$ も確率変数となります。なので、期待値（平均）を考えることができます。

「平均」が2個出てくるのが気持ち悪いですが、「標本平均の平均」はこの分野ではよく出てくる表現です。

母平均が $m$ の母集団から復元抽出によって大きさ $n$ の標本を抽出するとします。このとき、標本の変量を $X_1,X_2,\cdots,X_n$ とすると、それぞれの確率変数の分布は母集団分布と一致するので、期待値（平均）も一致します。つまり、\[ E(X_i)=m \]となります。

また、和の平均は平均の和であること（参考：【基本】確率変数の和の期待値）や、定数倍は外に出せること（参考：【基本】確率変数の変換）から、次のように標本平均の平均を求めることができます。
\begin{eqnarray} E(\bar{X}) &=& E\left(\frac{X_1+X_2+\cdots+X_n}{n}\right) \\[5pt] &=& \frac{1}{n} E(X_1+X_2+\cdots+X_n) \\[5pt] &=& \frac{1}{n} E(X_1)+E(X_2)+\cdots+E(X_n) \\[5pt] &=& \frac{1}{n} \cdot nm \\[5pt] &=& m \end{eqnarray}つまり、標本平均の平均は、母平均と一致することがわかります。これはイメージと合っていると感じる人も多いと思います。

標本平均の標準偏差

続いて、標本平均の標準偏差を求めてみます。母標準偏差を $\sigma$ とすると、$X_i$ の標準偏差も $\sigma$ となります。

$X_i,X_j$ が互いに独立であれば、\[ V(X_i+X_j)=V(X_i)+V(X_j) \]が成り立ちます（参考：【基本】独立な確率変数の和の分散）。このことや、定数倍の計算を使うと、次のように標本平均の標準偏差をもとめることができます。
\begin{eqnarray} \sigma\left(\bar{X}\right) &=& \sqrt{V\left(\frac{X_1+X_2+\cdots+X_n}{n}\right)} \\[5pt] &=& \sqrt{\frac{1}{n^2} V(X_1+X_2+\cdots+X_n)} \\[5pt] &=& \frac{1}{n} \sqrt{V(X_1)+V(X_2)+\cdots+V(X_n)} \\[5pt] &=& \frac{1}{n} \sqrt{n \sigma^2} \\[5pt] &=& \frac{\sigma}{\sqrt{n}} \end{eqnarray}標準偏差の場合は、 $\sqrt{n}$ で割ったものになるんですね。

大数の法則

先ほど、標本平均の標準偏差が $\dfrac{\sigma}{\sqrt{n}}$ になることを見ました。この式からわかることは、標本の大きさ $n$ を大きくすればするほど、標本平均のバラツキは減っていくということです。バラツキが減って、母平均に近づいていきます。

これはイメージにも合うでしょう。初めのうちは外れ値のような値がでることがあっても、サンプルの数を増やしていけば、平均した値はブレがおさまっていく、というのは、経験からも納得できる結果だと思います。

サイコロをふって1の目が出る回数の割合を考えたときに、ふる回数を増やせば増やすほど、割合が $\dfrac{1}{6}$ に近づいていく、というのも、同じタイプの例です。（1の目が出たら $X_i=1$、それ以外は $X_i=0$ とすると、標本平均は1の目が出る割合になります）

このように、「標本の大きさ $n$ を大きくすると、標本平均が母平均に近づいていく」ことを、大数の法則(たいすうのほうそく、law of large numbers) といいます。

おわりに

ここでは、標本平均とその分布、平均、標準偏差について見てきました。もう一度まとめておきます。

標本平均の平均と標準偏差

母平均 $m$、母標準偏差 $\sigma$ の母集団から大きさ $n$ の無作為標本を復元抽出するとき、その標本平均 $\bar{X}$ の平均と標準偏差は、以下のように計算できる。\[ E(\bar{X})=m,\ \sigma(\bar{X})=\frac{\sigma}{\sqrt{n}} \]

標本の大きさ $n$ が大きくなれば、標本平均のバラツキが小さくなっていく、というイメージももっておくと役立つでしょう。

対象者：数学B

分野：確率分布と統計的な推測

トピック：統計的な推測

レベル：基本

キーワード：標本平均