【基本】データ、度数分布表、ヒストグラム
ここでは、データの分析をする上で使う基本的な用語と、度数分布表やヒストグラムについて説明します。
データ
学校で期末試験を受けたあと、自分の点数とクラスの平均点とを比べた経験が誰にでもあると思います。この「テストの点数」のように、ある集まりの持っている特徴を数量で表すものを変量(variate)と言います。身長や体重なども変量です。人以外だと、日々の気温や降水量なども変量になります。
また、「みんなのテストの点数の集まり」のように、変量の測定値の集まりをデータ(data)といいます。高校数学の単元「データの分析」では、「調査や実験をした結果、たくさん数値が集まったんだけど、これらの数値からどんなことが言えるんだろう」という疑問を解消するためのツールを学んでいきます。
なお、日常生活で「データ」という言葉を使う場合、文字データや画像データのように、数字でないものが対象となっていることもありますが、高校数学では、数値で表されるものしか扱いません。
ちなみに、データは「測定値の集まり」と書きましたが、そもそも「data」という言葉は複数形なんですね。単数形が使われることはほとんどありませんが、単数形は「datum」といいます。
度数分布表
例えば、30人のクラスで、数学のテストがあったとしましょう。30個の数字を見ていても、数学のテストの結果がどうだったのかはわかりづらいです。そのため、いくつかの区間に分けて、その区間に入っている個数を表にすると便利です。
点数 | 人数 |
---|---|
41~50 | 2 |
51~60 | 4 |
61~70 | 7 |
71~80 | 10 |
81~90 | 6 |
91~100 | 1 |
この表で用いた区間のことを階級(class) といい、区間の幅のことを階級の幅(range) といいます。階級の真ん中の値を階級値といいます。
また、それぞれの階級に属する値の個数のことを、その階級の度数(frequency) といい、上のような表を度数分布表(frequency distribution table)といいます。
上の例であれば、階級の幅は 9点であり、71点~80点の階級の度数は 10 で、この階級の階級値は 75.5点となります。
度数分布表を作ると、データがどのように分布しているのかが把握しやすくなります。
ヒストグラム
度数分布表を作ると、データの分布の状態がわかりますが、もっと視覚的に把握したい場合には、ヒストグラムが使われることがあります。
ヒストグラム(histogram)とは、度数分布表を柱状グラフで表したものです。上の数学のテストの例であれば、ヒストグラムは次のようになります。
見てパッとわかるので、このヒストグラムもデータの分析ではよく使われます。
データの代表値
度数分布表もヒストグラムも、データ全体を把握するのには便利ですが、他のデータと比較するときに不便になることがあります。例えば、上の数学のテストの例であれば、英語のテスト結果と比較しようとすると、表やグラフが2つ並ぶことになり、比較しづらいです。そこで、「データ全体をズバッと1つの数字で表したい」という気持ちが芽生えてきます。
このような、データ全体の特徴を表す数値のことを、データの代表値(representative value)といいます。よく使われる代表値として、平均値、中央値、最頻値があります。それぞれ、どのような内容を表すかは、別ページで個別に詳しく見ていきます。
おわりに
ここでは、データの分析に関する基本的な用語、度数分布表とヒストグラムを見てきました。中学で習う内容と重なる部分もあります。また、データの代表値に関して軽く触れました。代表値については、各ページで確認しましょう。