【導入】データの散らばり
🕒 2016/11/09
🔄 2023/05/01
【導入】データの代表値以降で見たように、データの分析を行うときには、複数の数値を眺めるよりも、データ全体の特徴を表す「代表値」を使う方がいいんでしたね。代表値には、平均値や中央値、最頻値などがあり、それぞれにメリット・デメリットがあることも見てきました。
「代表値」は、データ全体の特徴を1つの数値で表したものなので、当然、情報量は落ちてしまいます。例えば、「100人が50点」の場合も、「50人が0点・50人が100点」の場合も、平均点は50点となってしまい、平均点だけでこの2つの事例を比較することができません。
そこで、データの分析を行うときには、「データの散らばり」を表す指標を使うこともよくあります。この分野では、データの散らばりを表す、四分位数と分散について見ていきます。
中央値は、下から50%目の値のことでしたが、四分位数は、下から25%目や75%目の値を指します。分散は、平均との差を利用して算出します。つまり、データの散らばりを表す四分位数と分散は、代表値である中央値と平均値からそれぞれ派生したもの、ということができるでしょう。
以降では、四分位数と分散について、詳しく見ていきます。