【基本】データの中央値
ここでは代表値として平均値の次によく使われる「中央値」について見ていきます。
平均値の欠点
もしあなたが次のどちらかの会社に就職するとしたら、どちらを選びますか?
- 平均年収1000万円の会社A
- 平均年収500万円の会社B
しかし、実態はこうだったとすると、どうでしょうか。
- 会社Aは、1人が年収8200万円、他の9人が年収200万円
- 会社Bの社員は、全員年収500万円
このように、平均値は、数値の偏りが大きい場合には、代表値として適切でないことがあります。どれかの数値が極端に平均を引き上げたり、逆に引き下げたりする場合には、「平均値がこのデータの集まりを代表している」とは言いづらいです。
中央値
平均値以外の代表値として、中央値(median)というものがあります。これは、データを並び替えたときに真ん中にあたる数値を指します。データ数が7個であれば、上から4番目(=下から4番目)が中央値、ということです。データの数が偶数の場合は、中央の2つの平均をとります。例えば、データ数が10なら、上から5番目と6番目を足して2で割ったものが中央値となります。
上の平均年収の例であれば、会社Aの中央値は200万円、会社Bの中央値は500万円となります。上のような極端な数字が入っているケースなどでは、平均値で比較するよりも中央値で比較するほうが直感に近くなる、と言えるでしょう。
他の例も考えてみます。値が次の5つだったとします。\[ 3,7,6,2,4 \]値の数が5つなら、中央値は、上から3つ目(下から3つ目)です。このままではわかりにくいので、まずは並び替えます。\[ 2,3,4,6,7 \]こうして、3つ目が4だとわかるので、中央値は4だ、と求められます。
ここに、さらに1という値が追加されれば、\[1,2,3,4,6,7\]となります。中央の値は3と4なので、この平均をとったものが中央値となります。なので、このときの中央値は3.5となります。
中央値は、中間値と呼ばれることもあります。また、メディアンやメジアンなどと呼ばれることもあります。
中央値を求めるには、データを並び替える必要がありますが、並び替えた後はすぐに答えが出せます。平均値のように計算が大変にはなりません。
おわりに
ここでは、代表値としてよく使われる、中央値について見てきました。平均値と中央値、どちらを使うべきかなどについては、後で説明する最頻値と合わせて、【基本】平均値・中央値・最頻値はどう使い分ける?で見ることにします。