【基本】箱ひげ図
【基本】四分位数では、データの散らばりを表す指標として、四分位数や四分位範囲を見ました。ここでは、この四分位数を視覚的に把握するための箱ひげ図というものを見ていきます。
箱ひげ図
別のページで、データの代表値として中央値があること、また、【基本】四分位数で見たように、データの散らばりを見る指標として、最大値と最小値の差をとった「範囲」や、第3四分位数と第1四分位数との差をとった「四分位範囲」があることを見ました。これらを使って分析するときに、各数字を直接比較してもいいのですが、まとめて視覚的に見ることができると、さらに分析しやすくなります。
そこでよく使われるのが箱ひげ図です。箱ひげ図(box plot)は、データの最小値、第1四分位数、中央値、第3四分位数、最大値の5つの数字を、箱と線(ひげ)で表現した図のことで、下のようなものをいいます。
右端から左端までの長さがデータの範囲、箱の長さが四分位範囲となります。上の図では横にかいていますが、縦にかくこともあります。また、箱ひげ図に「+」印を使って平均値を入れることもあります。
実際に、【基本】四分位数で見た事例で箱ひげ図を作ってみると、次のようになります。
線の端から端までや箱の長さを把握しやすくなったので、散らばり具合も見てすぐわかるようになりました。この箱ひげ図を見ると、グループAの散らばり具合が一番大きく、グループBの散らばり具合が一番小さいことが視覚的にわかりますね。
箱ひげ図の特徴
箱ひげ図からは、5つの数字(最小値、第1四分位数、中央値、第3四分位数、最大値)が読み取れます。この5つの数字のことを、まとめて五数要約と呼びます。
この5つの数字は、データを大きい順で並べたときの、下から 0%, 25%, 50%, 75%, 100% にあたる数字を表しています。なので、箱ひげ図の箱の中には、全体の約半分のデータが入っている、ということができます。
代表値は1つの数字でデータ全体を表したもの、ヒストグラムは縦と横でデータ全体を表したものですが、箱ひげ図は縦だけ、横だけでデータ全体を表そうとしたものです。いわば、0次元でも2次元でもなく、1次元でデータを切っている、ということができるでしょう。
代表値では情報が落ちすぎてしまう一方、ヒストグラムだと並べて比較するには場所をとってしまいます。箱ひげ図は、省スペースなのに、代表的な値も散らばり具合も見ることができる、というメリットがあるんですね。
おわりに
ここでは、データの散らばりを見るためによく使われる、箱ひげ図について見てきました。試験では「箱ひげ図をかきなさい」という問題はほとんどなく、「データにあう箱ひげ図を選びなさい」とか「ヒストグラムと矛盾しない箱ひげ図を選びなさい」という形で出題されることが多いです。箱と線が何を表しているか、ここで見た内容を理解して、問題を解くようにしましょう。