【基本】データの最頻値
ここでは、平均値、中央値と同様に、代表値として使われる「最頻値」に関してみていきます。
最頻値
例えば、ある靴屋で売れた靴が次の通りだったとします。
サイズ | 足数 |
---|---|
22cm | 14 |
23cm | 29 |
24cm | 7 |
25cm | 15 |
26cm | 18 |
27cm | 12 |
28cm | 5 |
全部で100足の売上でした。計算するとわかりますが、売れた靴の平均サイズは、24.5cmとなります。また、下から50番目と51番目は、それぞれ24cmと25cmなので、中央値も24.5cmとなります。平均値も中央値も24.5cmとなります。
しかし、この「24.5cm」はこの店の売り上げを代表する値といってよいのでしょうか。もちろん、どういう値に着目したいかはケースによって異なります。しかし、上の表で一番目立つのは「23cm:29足」であり、これがこの店の売り上げを代表する値、と言えるのではないでしょうか。
このように、データ全体の中で、一番たくさんある値のことを最頻値(さいひんち、mode)と呼びます。上のケースでは、23cmが最頻値になります。
最頻値に関する注意
最頻値は、1つに決まるとは限りません。例えば、上の靴のケースで、22cmも29足だったとすると、最頻値は「22cmと23cm」となります。平均値や中央値と異なり、値が複数になるケースがあります。
また、値がバラバラな場合(例えば、走り幅跳びの記録など)では、すべての値が1回しかあらわれないこともあります。その場合は、幅を指定して集計します。走り幅跳びの場合なら、50cm刻みや1m刻みで集計するといいでしょう。年齢を集計する場合なら、5歳刻みや10歳刻みで集計するのが自然です。そして、どの幅のデータ数が一番多いかを見る、という流れが一般的です。
範囲を設定した場合は、一番データ数の多い区間の中央(階級値)が最頻値となります。
なお、そもそもデータ数が少ない場合では、「一番たくさんある値」にあまり意味がないので、最頻値を使うことは少ないです。
おわりに
ここでは、最頻値について見てきました。最頻値を求めるのに計算は不要です。個数をカウントするだけでOKです。
求めるのは簡単ですが、逆に、求めるのが簡単なのでテストには出題されにくいとも言えます。出題頻度は少ないですが、何を表すものなのかは把握しておきましょう。