🏠 Home / 数学B / 確率分布と統計的な推測 / 統計的な推測

【基本】標本平均の分布

ここでは、標本平均の分布についてみていきます。

📘 目次

標本平均

母集団の特徴を表すものとして、一番代表的なものは平均ですよね。生徒が母集団の場合は、身長でもテストの点数でも、とりあえず平均がどうなっているかを知りたいケースが多いです。

全員分を調べることが難しい場合は、一部だけをピックアップして推測する方法があります。いくつか標本を抽出して、それらを利用する方法ですね。(参考:【基本】全数調査と標本調査

母平均を推測したい場合には、これらの標本をどうすればいいかというと、まずは単純に平均をとればよさそうだと予想できます。

母集団から大きさ $n$ の標本を無作為抽出するとします。この標本の変量を $X_1,X_2,\cdots,X_n$ とするとき、これらの平均を $\bar{X}$ とします。つまり、\[ \bar{X}=\frac{X_1+X_2+\cdots+X_n}{n} \]ということです。この $\bar{X}$ のことを、標本平均(sample mean) といいます。

例えば、0, 1, 2, 3 と書かれたカードが、それぞれ、4, 3, 2, 1 枚ずつあるとします。この10枚のカードを母集団とし、カードに書かれた数字を変量 $X$ とすると、$X$ の母集団分布は次のようになります。

$X$ $0$ $1$ $2$ $3$
$P$ $\dfrac{4}{10}$ $\dfrac{3}{10}$ $\dfrac{2}{10}$ $\dfrac{1}{10}$ $1$

ちなみに、 $X$ の期待値(平均)は次のようになります。
\begin{eqnarray} E(X)=\frac{0+3+4+3}{10}=1 \end{eqnarray}

さて、このカード全体から1枚を引いて元に戻す、という操作を2回やって、1回目・2回目の数字を $X_1,X_2$ とおくことにします。すると、標本平均 $\bar{X}$ の分布は次のようになります。

$\bar{X}$ $0$ $\frac{1}{2}$ $1$ $\frac{3}{2}$ $2$ $\frac{5}{2}$ $3$
$P$ $\dfrac{16}{100}$ $\dfrac{24}{100}$ $\dfrac{25}{100}$ $\dfrac{20}{100}$ $\dfrac{10}{100}$ $\dfrac{4}{100}$ $\dfrac{1}{100}$ $1$

$\bar{X}$ の期待値(平均)を計算すると、次のようになります。
\begin{eqnarray} E(\bar{X}) &=& \frac{0+12+25+30+20+10+3}{100} \\[5pt] &=& \frac{37+50+13}{100} =1 \\[5pt] \end{eqnarray}先ほど計算した $X$ の期待値と一致しています。また、 $X$ の分布と $\bar{X}$ の分布を比べると、$\bar{X}$ のほうが、期待値 $1$ から離れた値をとる確率が小さくなり、 $1$ に近い値をとる確率が大きくなっていることがわかります。

以下では、これらの性質を一般的なケースで確かめてみます。

標本平均の平均

無作為抽出した標本に対して、平均をとったものを標本平均というのでした。これを $\bar{X}$ とすると、この $\bar{X}$ も確率変数となります。なので、期待値(平均)を考えることができます。

「平均」が2個出てくるのが気持ち悪いですが、「標本平均の平均」はこの分野ではよく出てくる表現です。

母平均が $m$ の母集団から復元抽出によって大きさ $n$ の標本を抽出するとします。このとき、標本の変量を $X_1,X_2,\cdots,X_n$ とすると、それぞれの確率変数の分布は母集団分布と一致するので、期待値(平均)も一致します。つまり、\[ E(X_i)=m \]となります。

また、和の平均は平均の和であること(参考:【基本】確率変数の和の期待値)や、定数倍は外に出せること(参考:【基本】確率変数の変換)から、次のように標本平均の平均を求めることができます。
\begin{eqnarray} E(\bar{X}) &=& E\left(\frac{X_1+X_2+\cdots+X_n}{n}\right) \\[5pt] &=& \frac{1}{n} E(X_1+X_2+\cdots+X_n) \\[5pt] &=& \frac{1}{n} E(X_1)+E(X_2)+\cdots+E(X_n) \\[5pt] &=& \frac{1}{n} \cdot nm \\[5pt] &=& m \end{eqnarray}つまり、標本平均の平均は、母平均と一致することがわかります。これはイメージと合っていると感じる人も多いと思います。

標本平均の標準偏差

続いて、標本平均の標準偏差を求めてみます。母標準偏差を $\sigma$ とすると、$X_i$ の標準偏差も $\sigma$ となります。

$X_i,X_j$ が互いに独立であれば、\[ V(X_i+X_j)=V(X_i)+V(X_j) \]が成り立ちます(参考:【基本】独立な確率変数の和の分散)。このことや、定数倍の計算を使うと、次のように標本平均の標準偏差をもとめることができます。
\begin{eqnarray} \sigma\left(\bar{X}\right) &=& \sqrt{V\left(\frac{X_1+X_2+\cdots+X_n}{n}\right)} \\[5pt] &=& \sqrt{\frac{1}{n^2} V(X_1+X_2+\cdots+X_n)} \\[5pt] &=& \frac{1}{n} \sqrt{V(X_1)+V(X_2)+\cdots+V(X_n)} \\[5pt] &=& \frac{1}{n} \sqrt{n \sigma^2} \\[5pt] &=& \frac{\sigma}{\sqrt{n}} \end{eqnarray}標準偏差の場合は、 $\sqrt{n}$ で割ったものになるんですね。

大数の法則

先ほど、標本平均の標準偏差が $\dfrac{\sigma}{\sqrt{n}}$ になることを見ました。この式からわかることは、標本の大きさ $n$ を大きくすればするほど、標本平均のバラツキは減っていくということです。バラツキが減って、母平均に近づいていきます。

これはイメージにも合うでしょう。初めのうちは外れ値のような値がでることがあっても、サンプルの数を増やしていけば、平均した値はブレがおさまっていく、というのは、経験からも納得できる結果だと思います。

サイコロをふって1の目が出る回数の割合を考えたときに、ふる回数を増やせば増やすほど、割合が $\dfrac{1}{6}$ に近づいていく、というのも、同じタイプの例です。(1の目が出たら $X_i=1$、それ以外は $X_i=0$ とすると、標本平均は1の目が出る割合になります)

このように、「標本の大きさ $n$ を大きくすると、標本平均が母平均に近づいていく」ことを、大数の法則(たいすうのほうそく、law of large numbers) といいます。

おわりに

ここでは、標本平均とその分布、平均、標準偏差について見てきました。もう一度まとめておきます。

標本平均の平均と標準偏差
母平均 $m$、母標準偏差 $\sigma$ の母集団から大きさ $n$ の無作為標本を復元抽出するとき、その標本平均 $\bar{X}$ の平均と標準偏差は、以下のように計算できる。\[ E(\bar{X})=m,\ \sigma(\bar{X})=\frac{\sigma}{\sqrt{n}} \]

標本の大きさ $n$ が大きくなれば、標本平均のバラツキが小さくなっていく、というイメージももっておくと役立つでしょう。

関連するページ

YouTubeもやってます

チャンネル登録はコチラから (以下は、動画のサンプルです)
慶應義塾大学薬学部2024年度数学第1問5 同志社大学文系2024年度数学第1問3 昭和大学医学部I期2024年度数学第2問 兵庫医科大学2024年度数学第3問 共通テスト2B2024年度第3問2のヒントについて 久留米大学医学部推薦2024年度数学第4問