【基本】データの中央値

ここでは代表値として​平均値の次によく使われる「中央値」について見ていきます。

【広告】

平均値の欠点

もしあなたが次のどちらかの会社に就職するとしたら、どちらを選びますか?

  • 平均年収1000万円の会社A
  • 平均年収500万円の会社B

もちろん、年収以外にも会社を選ぶ要素はあると思いますが、ここではとりあえず年収以外の要素は全部同じとしましょう。そうであれば、普通は1000万円の方を選ぶと思います。というか、僕ならそうします。

しかし、実態はこうだったとすると、どうでしょうか。

  • ​​会社Aは、1人が年収8200万円、他の9人が年収200万円
  • 会​​社Bの社員は、全員年収500万円

会社Aは完全歩合制なのでしょう。会社Aの平均年収は確かに1000万円なのですが、なんだかちょっと思ってたのと違う気がします。この情報を知っていたら、会社Bの方を選んでいた、という人も多いでしょう。

このように、平均値は、数値の偏りが大きい場合には、代表値として適切でないことがあります。どれかの数値が極端に平均を引き上げたり、逆に引き下げたりする場合には、「平均値がこのデータの集まりを代表している」とは言いづらいです。

【広告】

中央値

平均値以外の代表値として、中央値(median)というものがあります。これは、データを並び替えたときに真ん中にあたる数値を指します。データが7個あれば、上から4番目(=下から4番目)が中央値、ということです。データの数が偶数の場合は、中央の2つの平均をとります。例えば、データ数が10なら、上から5番目と6番目を足して2で割ったものが中央値となります。

上の平均年収の例であれば、会社Aの中央値は200万円、会社Bの中央値は500万円となります。上のような極端な数字が入っているケースなどでは、平均値で比較するよりも中央値で比較するほうが直感に近くなる、と言えるでしょう。

他の例も考えてみます。値が次の5つだったとします。\[ 3,7,6,2,4 \]値の数が5つなら、中央値は、上から3つ目(下から3つ目)です。このままではわかりにくいので、まずは並び替えます。\[ 2,3,4,6,7 \]こうして、3つ目が4だとわかるので、中央値は4だ、と求められます。

ここに、さらに1という値が追加されれば、\[1,2,3,4,6,7\]となります。中央の値は3と4なので、この平均をとったものが中央値となります。なので、このときの中央値は3.5となります。

中央値は、中間値と呼ばれることもあります。また、メディアンやメジアンなどと呼ばれることもあります。

中央値を求めるには、データを並び替える必要がありますが、並び替えた後はすぐに答えが出せます。平均値のように計算が大変にはなりません。

おわりに

ここでは、代表値としてよく使われる、中央値について見てきました。平均値と中央値、どちらを使うべきかなどについては、後で説明する最頻値と合わせて、【基本】平均値・中央値・最頻値はどう使い分ける?で見ることにします。