🏠 Home / 数学B / 確率分布と統計的な推測 / 統計的な推測

【基本】全数調査と標本調査

ここでは、全数調査や標本調査に関連する用語などをまとめて紹介していきます。

📘 目次

全数調査と標本調査

2020年以降、新型コロナが大流行しました。政府は感染状況などに関するさまざまな調査を行いました。例えば、感染やワクチン接種などにより、どれくらいの人が抗体を保有しているかを調べる調査などです(参考:新型コロナウイルス感染症に関する抗体保有状況調査について|厚生労働省)。

このような調査は、今後の感染の予測や政策の決定に使われるため、正確な値がわかるほうがいいです。なので、できることなら、日本に住んでいる人全員に対して調査したほうがいいでしょう。しかし、全員分を調べるのは時間もお金もかかるし、検査のために遠出してもらうことには感染リスクを伴うという問題もあります。

そこで、このような場合には、全員について調査するのではなく、一部だけをピックアップして調査する手法がとられます。このように、対象の一部だけを抜き出して調べる調査を、標本調査(sample survey) といいます。これに対し、全体に対する調査を、全数調査(complete survey) といいます。

全数調査の典型的なものは、国勢調査です。5年に一度、日本の全世帯に対して、仕事や世帯の人数などを調べています。全数調査は時間もコストもかかるため、日本全体のような大規模なものは国勢調査くらいしかありません。

母集団と標本

調査の対象となる集団全体のことを、母集団(population) といいます。

標本調査の場合は、この母集団から一部を選び出して調査するのですが、この選び出す操作のことを、抽出(sampling) といいます。抽出された集団のことを、標本(sample) といいます。

標本調査の目的は、標本を用いて母集団の性質を調べることです。数学Bのこの分野では、主に、母集団の平均を推測する方法を学びます。

母集団の要素数のことを、母集団の大きさといいます。標本の要素数のことを、標本の大きさといいます。例えば、全体で1万世帯ある町から、100世帯を選んで調査する場合、母集団の大きさは 10000 で、標本の大きさは 100 となります。

無作為抽出

標本調査の目的から考えると、母集団から標本を抽出するときに、標本が偏っているとまずいです。例えば、日本全体の視聴率を推測するときに、渋谷にいる高校生だけに聞くのはダメでしょう。

標本調査の場合、標本は母集団から公正に、各要素が等しい確率で選び出されるように抽出しないといけません。このような抽出法を、無作為抽出 といいます。無作為とは、偶然に任せる、ということです。無作為に抽出された標本は、無作為標本 といいます。

無作為に抽出する、というのは簡単なようでなかなか難しいです。例えば、テレビや新聞で行われる内閣支持率の調査では、かつては、無作為に選んだ固定電話の番号にかけて調査する、という手法をとっていました。

しかし、携帯電話が普及し、家に固定電話を持たない人(特に若者)も多く、持っていたとしても平日日中には出れない人(働いている一人暮らしの人など)も多いため、若者の声が反映されていないのではないか、という批判がありました。現在は携帯電話も対象になっていますが、対象になったのは2016年からです。

また、ネットでアンケートをとると、今度は逆に、若者の回答の比率が上がり、偏りが発生してしまいます。

偏りがあってもいい調査なら構いませんが、全体をできる限り正確に推測するためには、抽出の仕方もよく考えなくてはいけません。

復元抽出と非復元抽出

母集団から標本を抽出する場合、1つ抽出するたびにもとに戻す復元抽出(sampling with replacement)と、もとに戻さずに抽出する非復元抽出(sampling without replacement) の2パターンがあります。非復元抽出の場合は、1度抽出した標本は、次回以降の抽出からは除外します。

例えば、1, 2, 3, 4, 5 と書かれたカードがそれぞれ1000枚ずつ、合計5000枚あるとしましょう。このとき、ここからランダムに3回カードを引いて3回とも 1 を引く確率を考えてみます。

復元抽出の場合、毎回、引いたカードは元に戻すので、確率は以下のようになります。\[ \frac{1000}{5000}\cdot\frac{1000}{5000}\cdot\frac{1000}{5000}=\frac{1}{125}=0.008 \]一方、非復元抽出の場合は、カードは戻さないので、1 を引いたら次にカードを選ぶときは 1 のカードの枚数は減っているから\[ \frac{1000}{5000}\cdot\frac{999}{4999}\cdot\frac{998}{4998}=0.0079808\cdots \]となります。

選んだものを戻すかどうかによって、確率は少し変わります。しかし、その差はすごく小さいことがわかります。

一般に、標本の大きさに対して母集団の大きさが十分大きい場合は、復元抽出と非復元抽出との差はすごく小さくなります。そのため、母集団の性質の推測に影響せず、無視できることがあります。

非復元抽出のほうが実行しやすいが、計算は難しい、ということが多いので、実際には非復元抽出であったとしても、復元抽出したものとみなして扱うことがあります

「母集団の大きさが十分大きい」とは、曖昧な言い方ですね。問題を解くときに、非復元抽出を復元抽出と見なしていい場合には、そのような文言が記載されているはずです。

おわりに

ここでは、全数調査と標本調査に関する用語などを見てきました。問題文を読むうえで基本となるものが多いので、おさえておきましょう。

関連するページ

YouTubeもやってます

チャンネル登録はコチラから (以下は、動画のサンプルです)
慶應義塾大学薬学部2024年度数学第1問5 同志社大学文系2024年度数学第1問3 昭和大学医学部I期2024年度数学第2問 兵庫医科大学2024年度数学第3問 共通テスト2B2024年度第3問2のヒントについて 久留米大学医学部推薦2024年度数学第4問