【応用】原因の確率
ここでは、条件付き確率の応用として、原因の確率を考えます。今までと確率を考える順番が違うので、少し考えにくくなります。
病気に感染している確率
100人に1人の割合で、この病気に感染している。感染者はこの検査によって99%の確率で陽性だと判定できる。また、感染していない人が陽性だと判定されてしまう確率が2%ある。
ある人がこの検査を受けて陽性だと判断された。この人が、この病気に感染している確率を求めなさい。
「〇〇のときに、△△となる確率」というのは、条件付き確率の問題です。「取り出した1つ目の球が赤球のとき、2つ目が白球の確率」のようなものが典型的な例です(参考:【基本】条件付き確率と積の法則)。
しかし、今まで考えていた条件付き確率とは少し違います。「検査結果から感染の確率を求める」という、起こった後の結果から、それ以前に起こった確率を求めるという問題です。
順番は違いますが、次の式はそのまま成り立ちます。\[ P(A\cap B) = P(A) P_A(B) \]それぞれの事象が何であるかを確認しながら考えていきましょう。
条件は、「検査結果が陽性である」です。このときに、「感染している」確率を求めるんですね。なので、上の式で、事象 A が「検査結果が陽性である」であり、B が「感染している」にあたります。そして、求めるものは $P_A(B)$ です。
$P(A\cap B)$ から考えます。病気に感染している確率が1%で、このときに陽性の結果になるのが99%です。よって
\begin{eqnarray}
P(A\cap B)
&=&
P(B) P_B(A) \\
&=&
\frac{1}{100} \times \frac{99}{100} \\
&=&
\frac{99}{10000} \\
\end{eqnarray}となります。積の法則を、先ほどとは別の順番で使っています。
さて、続いて、検査結果が陽性である確率 $P(A)$ を求めましょう。これは、病気に感染していて陽性になる場合と、病気に感染していないのに陽性になる場合、2つあります。それぞれの確率から、次のように求められます。
\begin{eqnarray}
P(A)
&=&
P(A\cap B) +P(A\cap \bar{B}) \\
&=&
\frac{1}{100} \times \frac{99}{100} +\frac{99}{100} \times \frac{2}{100} \\
&=&
\frac{297}{10000}
\end{eqnarray}
このことから、求める確率は
\begin{eqnarray}
P_A(B)
&=&
\frac{P(A\cap B)}{P(A)} \\[5pt]
&=&
\frac{99}{10000} \div \frac{297}{10000} \\[5pt]
&=&
\frac{99}{297} \\[5pt]
&=&
\frac{1}{3} \\[5pt]
\end{eqnarray}と求められます。
偽陽性
これで解答としてはおしまいですが、この結果をよく見てみましょう。感染者を99%の確率で判別できるのに、陽性だとわかっても感染している確率は33%程度しかありません。結構少ないように感じませんか?
なぜこうなるのでしょうか。1万人がいたとして、どういう結果になるかを表にまとめ直してみます。
感染あり $B$ | 感染なし $\bar{B}$ | |
---|---|---|
陽性 $A$ | 99 | 198 |
陰性 $\bar{A}$ | 1 | 9702 |
$A\cap \bar{B}$ に注目してみましょう。これは、「感染者ではないが、陽性の結果が出てしまう事象」です。これが大きくなってしまうのは、「感染者の割合が少ない」「非感染者から陽性の結果が出てしまう確率が大きい」場合です。
誤差が増えて検査の正確性が減るのだから、「陽性の結果のとき、実際に感染している確率」が減るのは当たり前ですが、影響はかなり大きいんですね。
このように、「検査では陽性だが、実際には感染していない」ことを、偽陽性 といいます。他にも、上の表のそれぞれについて、以下のような名前がついています。
感染あり $B$ | 感染なし $\bar{B}$ | |
---|---|---|
陽性 $A$ | 真陽性 | 偽陽性 |
陰性 $\bar{A}$ | 偽陰性 | 真陰性 |
真か偽かは、検査結果と実際の感染状況があっているかどうかを表しています。なので、検査は、偽陽性も偽陰性も、どちらもないほうがいいですね。
しかし、実際にはそううまくは行きません。例えば、ある数値で判定するなら、陽性かどうかの判定を厳しくすれば偽陰性が増え、ゆるくすれば偽陽性が増えてしまいます。どちらも0にすることは難しいのが一般的です。
どういう検査をするかにもよりますが、偽陰性を減らす(感染しているのに見逃してしまうリスクを減らす)のがいい場合は、ある程度の偽陽性を許容し、陽性の人には再検査で別の方法を試す、などとします。
健康診断で再検査になっても、次の検査では何もない、ということがよくありますが、これは一回目に偽陽性の高い検査を受けていると考えられます。
原因の確率
上の例題のように、結果がわかったときに、それより過去の確率を考える条件付き確率のことを、「原因の確率」と呼ぶことがあります。
入試問題などで「原因の確率を求めなさい」と出題されることはほとんどありません。しかし、上の例題のように、本質的に「原因の確率」を求める問題だった、というケースはあります。
直接確率を求めることはできないので、積の法則を使って求めることとなります。
おわりに
ここでは、原因の確率について見てきました。結果から過去に起こったことに対する確率を考えるものでしたね。求めるときは、積の法則を使って解きます。直感から外れた結果になりやすいので、計算間違いに注意しましょう。