【基本】四分位数

ここでは、データの散らばりを表す指標として、四分位数を利用したものを考えます。中央値も出てくるので、不安な人は見直しておくと参考になります。

[広告]

別のページで、いろいろなデータの代表値を見てきました。代表値は、データ全体の特徴を表しますが、散らばりまでは表現できません。

例えば、30人の生徒に10点満点のテストをしたとします。この30人を、10人ずつ、グループA・B・Cの3つに分けたとします。テストの結果が、次のようになっていたとしましょう。
 A:1,2,3,4,5,6,7,8,9,10
 B:4,4,5,5,5,6,6,6,7,7
 C:1,3,5,5,5,6,6,7,7,10

こういう場合、数字をただ見るよりも、ヒストグラムなどにしたほうが状況が把握しやすいんでしたね。それぞれ、次のようなグラフになります。

basic-quartile-01
basic-quartile-02
basic-quartile-03

計算してみるとわかりますが、どのグループも、平均値は5.5点、中央値も5.5点となります。つまり、平均値や中央値だけでは、上の3つは区別できません

でも、散らばりぐらいは違いますよね。グループAは全体に散らばっていますが、グループBは中央に寄っていてあまり散らばっていません。グループCはグループBほど中央に寄っているわけではありませんが、グループAほど散らばっているわけでもありません。

これらを区別する指標があると便利ですよね。

データの範囲

データの散らばりを表す最も基本的なものが、データの範囲(range)です。これは、データの最大値からデータの最小値を引いたものです。一番振れている部分を見て、散らばり具合を把握しよう、という考えです。

グループAもグループCも、最大値は10点、最小値は1点なので、範囲は9点です。グループBは、最大値が7点、最小値が4点なので、範囲は3点です。値が大きいほど散らばっていると考えられるので、データの範囲から「グループAやグループCの散らばり度合いは、グループBの散らばり度合いより大きい」と言えます。

もちろんこの考え方はまずいこともあります。最大値と最小値しか見ていないため、極端に大きすぎる値や小さ過ぎる値が含まれている場合(例えば、天才が試験を受け、ありえない点数をとった場合とか)には、その値だけが反映されてしまいます。このような極端な値が含まれた場合に、その値を見て分析するのは、データの本質からかけ離れてしまいます。

四分位数

データの散らばりを表す上で、「最大値と最小値の差=範囲」を使う場合、極端な値が入っていると困ってしまいます。そこで、データの端から端までではなく、中央付近の範囲をとれば安全なんじゃないか、というアイデアが出てきます。

この発想を利用したものが、四分位数と四分位範囲です。四分位数(しぶんいすう、quartiles)とは、データを大きさの順に並べて4等分したときに、その区切りの位置に来る値のことです。ざっくりいうと、下から25%、50%、75%の値のことです。小さい方から、第1四分位数、第2四分位数、第3四分位数といい、 $Q_1, Q_2, Q_3$ と表すことが多いです。「第2四分位数」というのは、意味を考えればわかりますが、中央値のことです。

そして、第3四分位数と第1四分位数との差、つまり、 $Q_3-Q_1$ のことを、四分位範囲(interquartile range)といいます。「散らばりを表す値」としてよく使われます。この値が大きいほど、散らばっていると考えられるわけですね。

ただ、四分位数を出す上で、少し問題があります。データの数によっては、1/4番目や3/4番目がどこを指すのかわからない、という問題です。

大変ややこしい話なのですが、実は、教科書や人によって求め方が違います。ここでは、その中でも一般的と考えられる決め方を書きます。

basic-quartile-04

まず、データを大きさの順番に並べます。次に、中央値=第2四分位数を先に求めます。データの数が奇数個なら、ちょうど真ん中、偶数個なら、中央の二つの平均で出します(10個なら、5番目と6番目の平均、ということ)。

次に、データを上位と下位に分けます。データが偶数個の場合は、半分半分に分けられます。データが奇数個の場合は、ちょうど真ん中の数値を除いて、上位と下位に分けます。

そして、第1四分位数は、下位の中央値、第3四分位数は、上位の中央値、とします。

これが一般的な決め方ですが、他にも決め方があるということは胸にとどめておいてください。

この定義に沿って計算すると、四分位数は順番に
 グループA:3, 5.5, 8
 グループB:5, 5.5, 6
 グループC:5, 5.5, 7
となり、四分位範囲は、
 グループA:5
 グループB:1
 グループC:2
となります。イメージと合う結果になりましたね。

ちなみに、四分位範囲とほとんど同じ内容ですが、四分位偏差という指標が使われることもあります。四分位偏差は、四分位範囲を2で割ったものです。つまり、 $\displaystyle \frac{Q_3-Q_1}{2}$ です。

おわりに

ここでは、四分位数や四分位範囲について見ました。データの散らばりを見るために使える指標なので、意味をよく理解しておきましょう。