【基本】データ、度数分布表、ヒストグラム
🕒 2016/11/06
🔄 2022/05/12
ここでは、データの分析をする上で使う基本的な用語と、度数分布表やヒストグラムについて説明します。
📘 目次
データ
学校で期末試験を受けたあと、自分の点数とクラスの平均点とを比べた経験が誰にでもあると思います。この「テストの点数」のように、ある集まりの持っている特徴を数量で表すものを変量(variate)と言います。身長や体重なども変量です。人以外だと、日々の気温や降水量なども変量になります。
また、「みんなのテストの点数の集まり」のように、変量の測定値の集まりをデータ(data)といいます。高校数学の単元「データの分析」では、「調査や実験をした結果、たくさん数値が集まったんだけど、これらの数値からどんなことが言えるんだろう」という疑問を解消するためのツールを学んでいきます。
なお、日常生活で「データ」という言葉を使う場合、文字データや画像データのように、数字でないものが対象となっていることもありますが、高校数学では、数値で表されるものしか扱いません。
ちなみに、データは「測定値の集まり」と書きましたが、そもそも「data」という言葉は複数形なんですね。単数形が使われることはほとんどありませんが、単数形は「datum」といいます。
度数分布表
例えば、30人のクラスで、数学のテストがあったとしましょう。30個の数字を見ていても、数学のテストの結果がどうだったのかはわかりづらいです。そのため、いくつかの区間に分けて、その区間に入っている個数を表にすると便利です。
点数 | 人数 |
---|---|
41~50 | 2 |
51~60 | 4 |
61~70 | 7 |
71~80 | 10 |
81~90 | 6 |
91~100 | 1 |
ヒストグラム
度数分布表を作ると、データの分布の状態がわかりますが、もっと視覚的に把握したい場合には、ヒストグラムが使われることがあります。 ヒストグラム(histogram)とは、度数分布表を柱状グラフで表したものです。上の数学のテストの例であれば、ヒストグラムは次のようになります。