なかけんの数学ノート

【基本】データの中央値

ここでは代表値として​平均値の次によく使われる「中央値」について見ていきます。

[広告]

平均値の欠点

もしあなたが次のどちらかの会社に就職するとしたら、どちらを選びますか?

  • 平均年収1000万円の会社A
  • 平均年収500万円の会社B

もちろん、年収以外にも会社を選ぶ要素はあると思いますが、ここではとりあえず年収以外の要素は全部同じとしましょう。そうであれば、普通は1000万円の方を選ぶと思います。というか、僕ならそうします。

しかし、実態はこうだったとすると、どうでしょうか。

  • ​​会社Aは、1人が年収8200万円、他の9人が年収200万円
  • 会​​社Bの社員は、全員年収500万円

会社Aは完全歩合制なのでしょう。会社Aの平均年収は確かに1000万円なのですが、なんだかちょっと思ってたのと違う気がします。この情報を知っていたら、会社Bの方を選んでいた、という人も多いでしょう。

このように、平均値は、数値の偏りが大きい場合には、代表値として適切でないことがあります。どれかの数値が極端に平均を引き上げたり、逆に引き下げたりする場合には、「平均値がこのデータの集まりを代表している」とは言いづらいです。

中央値

平均値以外の代表値として、中央値(median)というものがあります。これは、データを並び替えたときに真ん中にあたる数値を指します。データが7個あれば、上から4番目(=下から4番目)が中央値、ということです。データの数が偶数の場合は、中央の2つの平均をとります。例えば、データ数が10なら、上から5番目と6番目を足して2で割ったものが中央値となります。

上の平均年収の例であれば、会社Aの中央値は200万円、会社Bの中央値は500万円となります。上のような極端な数字が入っているケースなどでは、平均値で比較するよりも中央値で比較するほうが直感に近くなる、と言えるでしょう。

中央値は、中間値と呼ばれることもあります。また、メディアンやメジアンなどと呼ばれることもあります。

中央値を求めるには、データを並び替える必要があります。ただし、平均値とは違って計算をする必要はありません。

おわりに

ここでは、代表値としてよく使われる、中央値について見てきました。平均値と中央値、どちらを使うべきかなどについては、後で説明する最頻値と合わせて、【基本】平均値・中央値・最頻値はどう使い分ける?で見ることにします。

[広告]
対象者: 数学I
分野: データの分析
トピック: データの分析
レベル: 基本
更新日:2016/12/02