【基本】母平均の推定
ここでは、母平均の推定について見ていきます。
区間推定
母集団の性質を調べたいけれど、すべてを調べるのが難しいなどの場合では、標本を抽出する方法があるのでした(参考:【基本】全数調査と標本調査)。母集団の性質として一番基本的なものは平均なので、母平均を調べたいとしましょう。標本を抽出したあと、その次は何をすればいいでしょうか。
標本平均の期待値(平均)は母平均と一致します。しかし、ここでいう期待値は理論的な値であり、実際に標本を抽出して計算した結果と一致するわけではありません。(コインを2回投げて表の出る期待値は1回ですが、実際に投げたときに必ず1回になるとは限らないのと同じです)
では、どうするかというと、標本を使って、「母平均はだいたいこの範囲におさまっているだろう」というのを計算することになります。標本平均からピッタリ母平均をあてるのは無理なので、区間で考えます。
このように、標本から得られた値を使った区間を用いて、母平均などを推測することを、区間推定(interval estimation) といいます。そして、この区間のことを、信頼区間(confidence interval) といいます。
例えば、 信頼度95%の信頼区間とは、95%の確率で母平均がその区間に入っている、ということです。もう少し正確にいうと、理論上では、「標本をとってきて区間を求める操作を100回やったときに、95回程度はその区間に母平均が含まれる」ということです。信頼度95%の信頼区間は、95%信頼区間ともいいます。
信頼区間の求め方
それでは、具体的に信頼区間の求め方を見ていきます。
最終的には母平均の推定をするのですが、まずは、母集団に関することがわかっている前提で考えていきます。
母平均 $m$、母標準偏差 $\sigma$ の母集団から、大きさ $n$ の標本を抽出するとします。 $n$ が十分大きいときは、標本平均 $\bar{X}$ は正規分布 $N\left(m,\dfrac{\sigma^2}{n}\right)$ に従う、とみなせるのでした。(参考:【基本】標本平均の分布と正規分布)
ここで、 $\bar{X}$ を標準化した、次のような確率変数 $Z$ を考えます。(参考:【標準】確率変数の標準化)\[ Z=\frac{\bar{X}-m}{\frac{\sigma}{\sqrt{n}}} \]$Z$ は標準正規分布に従います。正規分布表を見ると、 $P(0\leqq Z\leqq 1.96)=0.4750$ であることがわかります。これより、\[ P(-1.96 \leqq Z \leqq 1.96)=0.95 \]だとわかります。
これより、 $Z$ が $-1.96$ 以上 $1.96$ 以下となる確率が $0.95$ だとわかります。これを $\bar{X}$ の式で書き直していくと、次のようになります。
\begin{eqnarray}
& & -1.96 \leqq Z \leqq 1.96 \\[5pt]
& & -1.96 \leqq -Z \leqq 1.96 \\[5pt]
& & -1.96 \leqq \frac{m-\bar{X}}{\frac{\sigma}{\sqrt{n}}} \leqq 1.96 \\[5pt]
& & -1.96\cdot\frac{\sigma}{\sqrt{n}} \leqq m-\bar{X} \leqq 1.96\cdot \frac{\sigma}{\sqrt{n}} \\[5pt]
& & \bar{X}-1.96\cdot\frac{\sigma}{\sqrt{n}} \leqq m \leqq \bar{X}+1.96\cdot \frac{\sigma}{\sqrt{n}} \\[5pt]
\end{eqnarray}
最後の式を見てみましょう。最後の式は、母平均 $m$ が $\bar{X}-1.96\cdot\frac{\sigma}{\sqrt{n}}$ 以上 $\bar{X}+1.96\cdot\frac{\sigma}{\sqrt{n}}$ 以下の区間にある、という内容です。こうなる確率が $0.95$ というわけです。このことから、この区間のことを、母平均 $m$ に対する信頼度95%の信頼区間といいます。
実際に標本抽出を行った場合は、その平均を上の式の $\bar{X}$ に代入した区間を信頼区間とします。
式に出てくる $1.96$ は、信頼度の95%という値によって決まる値です。信頼度が99%のときは、 $P(0\leqq Z\leqq z_0)=0.99/2=0.495$ を満たす値($z_0=2.58$)を $1.96$ のかわりに使うことになります。
信頼度を大きくするということは、「区間内に母平均が入っている確率が高くなる」ことを意味するので、区間の幅は広がります。これは感覚からもわかると思いますし、上の例(信頼区間の95%を99%に変えると、1.96が2.58に変わること)からもわかります。
信頼度を何%とするかは問題によって値が変わりますが、現実には、95%か99%を使うことがほとんどです。
母標準偏差がわからない場合
さて、ここまでを読んで、注意深い人はこのことに気づくかもしれません。「母平均がわからないのに、母標準偏差がわかってるってどんな状況?」と。
母集団のことがわからなくて母平均を推定しようとしているのに、母標準偏差だけがわかっているというのは確かにおかしいですね。標準偏差の計算では平均を使いますから。
ただ、これは、推定の方法を学ぶためだと思ってもらうのがいいかなと思います。
もちろん、実際の統計では、母平均も母標準偏差もわからない場合を扱わないといけないこともあります。その場合は、先ほど見た信頼区間の $\sigma$ が使えないことは当然ですが、実は、 $1.96$ という数字も使えなくなってしまいます(そもそも正規分布表が使えなくなります)。
しかし、$n$ が十分大きければ、近似的に、$\sigma$ の代わりに標本の標準偏差を使い、 $1.96$ という数字も使えることが知られています。
わからないから仕方なく使う、のではなく、ちゃんと理論があって標本平均の標準偏差を使うのですが、高校の範囲でこれを示すのは難しいです。
大学入試の問題で、母標準偏差や母分散がわからない状況で推定の問題が出題されることは少ないかもしれませんが、もし出題される場合には、「標本の標準偏差を使ってよい」と記載されていることが多いと思います。
おわりに
ここでは、母平均の推定について見てきました。信頼度95%の信頼区間の式の見た目は大変そうですが、標準正規分布から変形していけば、それほど難しいことをしているわけではないと感じられるでしょう。