【基本】母比率の推定
ここでは、母比率の推定について見ていきます。
母比率の推定
母集団において、ある性質をもつものの割合 $p$ を、その性質の母比率(population proportion) といいます。工場で作られる製品の内の不良品の割合であるとか、選挙で、ある候補に投票した人の割合であるとかを想像するとわかりやすいでしょう。
この母比率に対して、標本がその性質を持つ割合を、標本比率といいます。
母平均の推定(参考:【基本】母平均の推定)を参考にしながら、標本比率から母比率を推定することを考えましょう。
具体的な話を想定したほうが考えやすいので、選挙の話で考えます。
投票者全体の中で、ある候補者A に投票した人の割合が $p$ であったとします。この $p$ は、開票作業が終わればわかりますが、開票直後の段階ではわかりません。しかし、できる限り早く知りたいです。そこで、大きな選挙では、標本調査として出口調査を行い、一部の人に「だれに投票したか」を直接聞いて結果を集めて、当選の予想を行います(実際には、出口調査以外の情報も加味して判断します)。
$n$ 人の人に聞いたとします。標本の大きさが $n$ ということですね。この場合、 $n$ 人の内、候補者A に投票した人を $X$ とすると、 $X$ は $B(n,p)$ に従います(参考:【基本】二項分布)。
このとき、母平均は $np$ で、母標準偏差は $\sqrt{np(1-p)}$ となります(参考:【基本】二項分布の期待値と分散)。ここで、 $n$ が十分大きいときに、二項分布は正規分布で近似できることを使うと(参考:【基本】二項分布と正規分布)、$n$ が十分大きければ、 $X$ は正規分布 $N(np,\sqrt{np(1-p)})$ に従うことになります。
このことから、次のような式が成り立ちます。\[ P\left(-1.96\sqrt{np(1-p)} \leqq X-np \leqq 1.96\sqrt{np(1-p)} \right)=0.95 \]ここで、このカッコの中を変形すると、次のようになります。
\begin{eqnarray}
& & -1.96\sqrt{np(1-p)} \leqq X-np \leqq 1.96\sqrt{np(1-p)} \\[5pt]
& & -1.96\sqrt{np(1-p)} \leqq np-X \leqq 1.96\sqrt{np(1-p)} \\[5pt]
& & X-1.96\sqrt{np(1-p)} \leqq np \leqq X+1.96\sqrt{np(1-p)} \\[5pt]
& & \frac{X}{n}-1.96\sqrt{\frac{p(1-p)}{n}} \leqq p \leqq \frac{X}{n}+1.96\sqrt{\frac{p(1-p)}{n}} \\[5pt]
\end{eqnarray}ここで、最後の式に出てくる $\dfrac{X}{n}$ は、標本比率のことです。これを $\bar{p}$ で表すことにすると\[ P\left( \bar{p}-1.96\sqrt{\frac{p(1-p)}{n}} \leqq p \leqq \bar{p}+1.96\sqrt{\frac{p(1-p)}{n}} \right)=0.95 \]となります。
このことから、母比率 $p$ に対する信頼度95%の信頼区間は、、、といきたいところですが、この区間
$\bar{p}-1.96\sqrt{\dfrac{p(1-p)}{n}}$ 以上 $\bar{p}+1.96\sqrt{\dfrac{p(1-p)}{n}}$ 以下
の式の中に、 $p$ が入っていますね。 $p$ を推定したいのに、 $p$ が入っていては困ってしまいます。しかし、一般に、 $n$ が十分大きいときは、 $p$ と $\bar{p}$ は近いため(参考:【基本】標本平均の分布)、 $p$ を $\bar{p}$ で置き換えて
$\bar{p}-1.96\sqrt{\dfrac{\bar{p}(1-\bar{p})}{n}}$ 以上 $\bar{p}+1.96\sqrt{\dfrac{\bar{p}(1-\bar{p})}{n}}$ 以下
が、母比率 $p$ に対する信頼度95%の信頼区間となります。
95%ではなく99%の場合は、1.96が2.58となります。
信頼区間を求める途中で、 $p$ を $\bar{p}$ に置き換えましたが、ここは、【基本】母平均の推定で見た、「$n$ が十分大きいとき、母標準偏差がわからない場合は、標本の標準偏差を使ってもよい」という内容を使った、とも考えることができます。
具体例
先ほどの選挙の例を使って、具体的な数字で計算してみます。
選挙の出口調査で、ある候補者A に投票したかどうかを聞いたとします。このとき、100人に聞いて、60人が投票したと答えたとしましょう。標本比率は $0.6$ です。この結果から、実際の得票率 $p$ を推定してみます。
95%信頼区間を求めるために、以下の計算をしておきます。\[ 1.96\cdot\sqrt{0.6\cdot(1-0.6)}=0.960\cdots \]これを使って先ほどの式に代入すれば次のようになります。
\begin{eqnarray}
& & 0.6-0.960\sqrt{\frac{1}{100}} \leqq p \leqq 0.6+0.960\sqrt{\frac{1}{100}} \\[5pt]
& & 0.504 \leqq p \leqq 0.696 \\[5pt]
\end{eqnarray}実際の得票率 $p$ が $0.504$ 以上 $0.696$ 以下の範囲に入っている確率が $0.95$ ということです。ただ、ちょっと幅が大きすぎる気もします。上下 20%ありますしね。
もっと多くの人に聞けば、信頼区間の幅は狭くなっていきます。例えば、900人に聞いて6割の人がAさんに投票したと答えたとすると\[ 0.568 \leqq p \leqq 0.632 \]となります。幅は 6%程度に減りました。3600人に聞いて、同じく結果が6割だったなら\[ 0.584 \leqq p \leqq 0.616 \]となり、さらに狭まります。
一般的には、信頼区間の幅が狭まるとうれしいのですが、たくさんの標本を集める必要が出てきます。そのため、実務上は、コストや時間などと正確性とのバランスを考える必要が出てきます。
おわりに
ここでは、母比率の推定の話を見てきました。母平均の推定がわかっていれば、似ている話だと理解できるでしょう。