【基本】仮説検定
ここでは、正規分布を用いて仮説検定を行う方法を見ていきます。
仮説検定
【基本】仮説検定の考え方では、仮説検定の考え方や流れを見ました。ここでは、今までに学んだ正規分布を用いて、仮説検定についてもう少し詳しく見ていきます。
例えば、サイコロがあったとしましょう。理想的なサイコロであれば、1の目が出る確率は $\frac{1}{6}$ です。なので、理論上は、720回振れば、1の目は120回出ると考えられます。期待値の考え方ですね。しかし、実際にサイコロを振って確かめてみると、ピッタリ120回になることはなくて、数字にブレがあります。
ここで、もし1が700回出ました、となると、どう考えても「このサイコロはぶっ壊れてる」と思うでしょう。何かおもりが入ってるはずだ、イカサマだ、と。
では、150回だったならどうでしょうか。まぁ、あり得そうな気もしますが、まだ、ちょっとブレが大きいようにも思います。
このような場合に、仮説検定(hypothesis testing) という、結果を統計的に検証する方法があります。母集団に関する仮定(「仮説」といいます)を、標本から得られた結果を使って判定します。
このサイコロの1の目が出る確率を $p$ としましょう。このサイコロの目の出方に偏りがある、つまり、\[ p\ne \frac{1}{6} \]と思っているとしましょう。仮説検定では、この示したいことに対して、その否定を仮定することから始まります。今の場合であれば、\[ p=\frac{1}{6} \]と仮定する、ということです。
もし、 $p=\dfrac{1}{6}$ だった場合に、720回サイコロを振って1の目が150回出る確率がどうなるかを求めてみましょう。1の目が出る回数を $X$ とすると、 $X$ は二項分布 $B(720,\frac{1}{6})$ に従います。この期待値と標準偏差は
\begin{eqnarray}
m&=&720\times\frac{1}{6}=120 \\[5pt]
\sigma&=&\sqrt{720\times\frac{1}{6}\times\frac{5}{6}}=10 \\[5pt]
\end{eqnarray}となります。なので、\[ Z=\frac{X-120}{10} \]とすれば、 $Z$ は近似的に標準正規分布に従うことになります。正規分布表から\[ P(-1.96 \leqq Z\leqq 1.96) \fallingdotseq 0.95 \]なので、\[ Z\leqq -1.96,\ Z\geqq 1.96 \]は $0.05$ 程度の確率でしか起こらないことになります。
ここで、 $Z=1.96$ とすると、
\begin{eqnarray}
Z &=& 1.96 \\[5pt]
\frac{X-120}{10} &=& 1.96 \\[5pt]
X &=& 120+10\cdot 1.96 \\[5pt]
&=& 139.6 \\[5pt]
\end{eqnarray}となります。つまり、 $X\leqq 100.4$ または $X\geqq 139.6$ となる確率は 0.05 以下だということです。150回出たということは、もしサイコロが正確だとすると、すごくレアなことが起こった、ということになります。
ここまでの計算を受けて、 $p=\frac{1}{6}$ と仮定すると、すごくレアなことが起こった、ということになってしまうので、このことから仮説が間違っていたと判断します。つまり、このサイコロは正確ではなさそうだ、と判断する、ということです。
仮説検定に関する用語
今見た例を使って、いろいろな用語を説明していきます。
正しいと主張したい内容(上の例では $p\ne\frac{1}{6}$ のこと)を否定した仮説を考えました。この仮説のことを、帰無仮説(null hypothesis) といいます。これは最終的に捨てたいものなので、このような名前がついています。一方、本来主張したい内容の方は、対立仮説 といいます。基本はこの対立仮説が重要になります。
先ほどの例だと、「サイコロが正しく作られている」が帰無仮説で、「サイコロが正しく作られていない(偏りがある)」が対立仮説です。
先ほどは、確率が0.05以下という状況を「レアなことが起こった」と考えたわけですが、この判断に使う水準のことを、有意水準 といいます。「有意」とは、偶然とは考えられないこと、何か意味があると考えられることを指します。
この有意水準は事前に決めておきますが、多くの場合、0.05や0.01(5%や1%)といった値が採用されます。
最後に、仮説が正しくないと判断しましたが、このように判断することを「仮説を棄却(ききゃく)する」といいます。確率変数の値の範囲で、「この範囲に入ったら仮説が棄却される」という範囲のことを、棄却域 といいます。
確率変数の値が棄却域に入れば、仮説は棄却します。一方、入らなければ、「仮説を棄却できない」と判断します。これは、「仮説が正しい」という意味ではない、という点に注意です。
もちろん、統計学的には棄却するような場面でも、実際には帰無仮説が正しい可能性もあります。つまり、本当は正しい仮説を棄却してしまう危険性があります。そのため、有意水準のことを、危険率と呼ぶこともあります。有意水準が5%というのは、正しい仮説を棄却してしまう確率も5%あるような検定である、ということです。
もう一度、これらの用語を使って、仮説検定の流れをまとめておきましょう。
1. 母集団について、帰無仮説をたてる。
2. 有意水準を定め、棄却域を求める。
3. 標本の値が棄却域に入れば帰無仮説を棄却する。棄却域に入らなければ棄却しない(帰無仮説は正しいとも誤りともいえない)。
本来示したいことをいきなり否定して話を進めるのは、少し背理法に似ていますね。
おわりに
ここでは、仮説検定について見てきました。仮説検定の流れだけでなく、途中の確率の計算もできるようになっていないと問題が解けない点に注意しましょう。