なかけんの数学ノート

【導入】データの散らばり

【導入】データの代表値以降で見たように、データの分析を行うときには、複数の数値を眺めるよりも、データ全体の特徴を表す「代表値」を使う方がいいんでしたね。代表値には、平均値や中央値、最頻値などがあり、それぞれにメリット・デメリットがあることも見てきました。

「代表値」は、データ全体の特徴を1つの数値で表したものなので、当然、情報量は落ちてしまいます。例えば、「100人が50点」の場合も、「50人が0点・50人が100点」の場合も、平均点は50点となってしまい、平均点だけでこの2つの事例を比較することができません。

そこで、データの分析を行うときには、「データの散らばり」を表す指標を使うこともよくあります。この分野では、データの散らばりを表す、四分位数分散について見ていきます。

中央値は、下から50%目の値のことでしたが、四分位数は、下から25%目や75%目の値を指します。分散は、平均との差を利用して算出します。つまり、データの散らばりを表す四分位数と分散は、代表値である中央値と平均値からそれぞれ派生したもの、ということができるでしょう。

以降では、四分位数と分散について、詳しく見ていきます。

[広告]
対象者: 数学I
分野: データの分析
トピック: データの分析
レベル: 導入
更新日:2016/11/09