【基本】母集団分布
ここでは、母集団の分布についてみていきます。
母集団分布
ある高校の生徒を母集団とするとき、身長やテストの点数など、母集団の持っている特徴を数量で表したものを、変量(variate) といいます。
大きさ $N$ の母集団において、変量のとり得る値が $x_1,x_2,\cdots,x_n$ のどれかであるとし、 $x_k$ をとる度数が $f_k$ であったとします($k=1,2,\cdots,n$)。このとき、度数分布表は次のようになります。
階級値 | $x_1$ | $x_2$ | $\cdots$ | $x_n$ | 計 |
---|---|---|---|---|---|
度数 | $f_1$ | $f_2$ | $\cdots$ | $f_n$ | $N$ |
ここで、この母集団から、1個の要素を無作為に抽出するとします。
このときの変量の値を $X$ とすると、これが $x_k$ となる確率 $P(X=x_k)$ は $\dfrac{f_k}{N}$ です。相対度数ですね。なので、 $X$ の確率分布は次のようになります。
$X$ | $x_1$ | $x_2$ | $\cdots$ | $x_n$ | 計 |
---|---|---|---|---|---|
$P$ | $\dfrac{f_1}{N}$ | $\dfrac{f_2}{N}$ | $\cdots$ | $\dfrac{f_n}{N}$ | $1$ |
この確率分布は、母集団の相対度数の分布と一致します。この確率分布のことを、母集団分布(population distribution) といいます。
母平均・母分散・母標準偏差
先ほどと同じように、大きさ $1$ の無作為標本における変量 $X$ について考えます。母集団における変量の平均値も、 $X$ の期待値(平均)も、以下の式で計算できます。\[ \sum_{k=1}^n x_k\cdot\frac{f_k}{N} \]この $X$ の期待値を、母平均(population mean) と呼びます。
母平均を $m$ とおくと、母集団における変量の分散も、 $X$ の分散も、以下の式で計算できます。\[ \sum_{k=1}^n (x_k-m)^2 \cdot\frac{f_k}{N} \]この $X$ の分散を、母分散(population variance) といいます。また、 $X$ の標準偏差は、母標準偏差(population standard deviation) といいます。
新しい用語が出てきていますが、ここまでの説明からもわかる通り、新しい計算方法が出てきたわけではありません。
例えば、0, 1, 2 と書かれたカードが、それぞれ、3, 5, 2 枚ずつあるとします。この10枚のカードを母集団とし、カードに書かれた数字を変量 $X$ とすると、$X$ の母集団分布は次のようになります。
$X$ | $0$ | $1$ | $2$ | 計 |
---|---|---|---|---|
$P$ | $\dfrac{3}{10}$ | $\dfrac{5}{10}$ | $\dfrac{2}{10}$ | $1$ |
このことから、母平均は
\begin{eqnarray}
& &
0\cdot \frac{3}{10}+1\cdot \frac{5}{10}+2\cdot \frac{2}{10} \\[5pt]
&=&
\frac{5+4}{10}=\frac{9}{10}
\end{eqnarray}となります。母分散は
\begin{eqnarray}
& &
0^2\cdot \frac{3}{10}+1^2\cdot \frac{5}{10}+2^2\cdot \frac{2}{10}-\left(\frac{9}{10}\right)^2 \\[5pt]
&=&
\frac{50+80-81}{100}=\frac{49}{100}
\end{eqnarray}となり、母標準偏差は $\dfrac{7}{10}$ となります。
おわりに
ここでは、母集団分布について見てきました。統計の話ですが、確率分布・確率変数のところで見た内容とのつながりについても見てきました。