共通テスト 数学I・数学A 2018年度プレテスト 第2問 [2] 解説

【必答問題】

解答編

問題

 $\def\myBox#1{\bbox[3px, border:2px solid]{\ \bf{ #1 }\ }}\def\mybox#1{\bbox[4px, border:1px solid gray]{\ #1\ }}$太郎さんと花子さんは二つの変量 $x,y$ の相関係数について考えている。二人の会話を読み、下の問いに答えよ。

花子:先生からもらった表計算ソフトの A列と B列に値を入れると、E列には D列に対応する正しい値が表示されるよ。

太郎:最初は簡単なところで二組の値から考えてみよう。

花子: 2行目を $(x,y)=(1,2)$ 、3行目を $(x,y)=(2,1)$ としてみるね。

 このときのコンピュータの画面のようすが次の図である。

(1) $\myBox{セ}$, $\myBox{ソ}$, $\myBox{タ}$ に当てはまるものを、次の 0~9 のうちから一つずつ選べ。ただし、同じものを操り返し選んでもよい。

 0: $-1.50$
 1: $-1.00$

 2: $-0.50$
 3: $-0.25$

 4: $0.00$
 5: $0.25$

 6: $0.50$
 7: $1.00$

 8: $1.50$
 0: $2.00$

解説

平均値は、合計を個数で割ればいい(参考:【基本】データの平均値)ので、\[ \frac{1+2}{2}=1.5 \]となります。 $x,y$ どちらも同じ値になります。

標準偏差を計算するために、まずは分散を考えましょう。分散は、平均からの差の2乗を足して、個数で割ればいい(参考:【基本】データの分散)ので
\begin{eqnarray}
& &
\frac{1}{2} \left\{(1-1.5)^2+(2-1.5)^2\right\} \\[5pt] &=&
\frac{1}{2} \times 0.5 \\[5pt] &=&
0.25
\end{eqnarray}です。標準偏差は、これのルートを考えればいいので、\[ \sqrt{0.25}=0.5 \]となります。 $x,y$ どちらも同じ値になります。

相関係数は、共分散をそれぞれの標準偏差で割れば求められます(参考:【基本】相関係数)。共分散は、それぞれの平均からの差を掛け合わせて足して個数で割ればいいので、
\begin{eqnarray}
& &
\frac{1}{2} \left\{(1-1.5)(2-1.5)+(2-1.5)(1-1.5)\right\} \\[5pt] &=&
\frac{1}{2}\times(-0.5) \\[5pt] &=&
-0.25
\end{eqnarray}となります。これを2つの標準偏差で割ったものが相関係数なので、相関係数は\[ \frac{-0.25}{0.5\times 0.5}=-1 \]となります。

解答

セ:8
ソ:6
タ:1

解答編 つづき

問題

太郎:3行目の変量 $y$ の値を 0 や -1 に変えても相関係数の値は $\mybox{タ}$ になったね。

花子:今度は、3行目の変量 $y$ の値を 2 に変えてみよう。

太郎:エラーが表示されて、相関係数は計算できないみたいだ。

(2) 変量 $x$ と変量 $y$ の値の組を変更して、 $(x,y)=(1,2),(2,2)$ としたときには相関係数が計算できなかった。その理由として最も適当なものを、次の 0~3 のうちから一つ選べ。 $\myBox{チ}$

 0:値の組の個数が2個しかないから。
 1:変量 $x$ の平均値と変量 $y$ の平均値が異なるから。
 2:変量 $x$ の標準偏差の値と変量 $y$ の標準偏差の値が異なるから。
 3:変量 $y$ の標準偏差の値が 0 であるから。

解説

相関係数を求めるには、(1)で見たように、共分散をそれぞれの標準偏差で割ることになります。この標準偏差が 0 であれば、0で割ることができないので、相関係数は求められません。

標準偏差とは、平均からの差の2乗を足し合わせ、個数で割って、そのルートを考えるのでした。ただ、すべての値が同じであれば、もちろん平均もその値となり、平均からの差の2乗はすべて 0 、合計も 0 だし、分散も標準偏差も 0 です。

なので、同じ値しかない場合は、標準偏差が 0 となり、相関係数を計算することができません。よって、「変量 $y$ の標準偏差の値が0であるから」が理由として適当です。

そもそも、相関とは、片方が増えると、もう片方は増える傾向があるのか、それとも減る傾向があるのか、を考えるものであり、相関係数はその傾向の強さを表しています。この問題では $y$ が 2 の値しかとらない場合ですが、このように、片方の値が変化しないのであれば、「増える傾向・減る傾向」というのを議論することすらできない、というのは、ある意味、当然だとも言えます。

解答

チ:3

解答編 つづき

問題

花子:3行目の変量 $y$ の値を 3 に変更してみよう。相関係数の値は 1.00 だね。

太郎:3行目の変量 $y$ の値が 4 のときも 5 のときも、相関係数の値は 1.00 だ。

花子:相関係数の値が 1.00 になるのはどんな特徴があるときかな。

太郎:値の組の個数を多くすると何かわかるかもしれないよ。

花子:じゃあ、次に値の組の個数を 3 としてみよう。

太郎: $(x,y) = (1,1),\ (2,2),\ (3,3)$ とすると相関係数の値は 1.00 だ。

花子: $(x,y) = (1,1),\ (2,2),\ (3,1)$ とすると相関係数の値は 0.00 になった。

太郎: $(x,y) = (1,1),\ (2,2),\ (2,2)$ とすると相関係数の値は 1.00 だね。

花子:まったく同じ値の組が含まれていても相関係数の値は計算できることがあるんだね。

太郎:思い切って、値の組の個数を 100 にして、1個だけ $(x,y)=(1,1)$ で、99個は $(x,y)=(2,2)$ としてみるね……。相関係数の値は 1.00 になったよ。

花子:値の組の個数が多くても、相関係数の値が 1.00 になるときもあるね。

(3) 相関係数の値についての記述として誤っているものを、次の 0~4 のうちから一つ選べ。 $\myBox{ツ}$

 0: 値の組の個数が 2 のときには相関係数の値が 0.00 になることはない。
 1: 値の組の個数が 3 のときには相関係数の値が -1.00 となることがある。
 2: 値の組の個数が 4 のときには相関係数の値が 1.00 となることはない。

 3: 値の組の個数が 50 であり、1 個の値の組が $(x,y)=(1,1)$ 、残りの 49個の値の組が $(x,y)=(2,0)$ のときは相関係数の値は -1.00 である。
 4: 値の組の個数が 100 であり、50 個の値の組が $(x,y)=(1,1)$ 、残りの50個の値の組が $(x,y)=(2,2)$ のときは相関係数の値は 1.00である。

解説

選択肢を、1つ1つ見ていきましょう。

0は、値の組の個数が2のときです。相関係数が 0.00 ということは、片方が増えても、もう片方が増えるとも減るとも言えない、無相関の状態です。しかし、2組しかない場合は、片方が増えたら「もう片方も増える」「もう片方は減る」「変わらない」の3通りしかないため、無相関にはなりません。相関係数の値が 0.00 となることはありません。

ちなみに、この3通りの場合について、相関係数は、順番に、 1, -1, 計算できない、となります。

1は、相関係数の値が -1.00 になるときについてです。こうなるのは、片方が増えたときに、もう片方が確実に減るといえるとき、ですが、そういう場合はありえます。例えば、 $(x,y)=(-3,3),(0,0),(3,-3)$ とすればいいですね。 $x,y$ の平均は0、分散は 6 で、共分散は -6 なので、相関係数は -1.00 です。 -1.00 になることはあります。

2は、相関係数の値が 1.00 になるときについてです。片方が増えたときに、もう片方が確実に増えるといえるとき、ですが、そういう場合はありえます。例えば、 $(x,y)=(-1,-1)$, $(-1,-1)$, $(1,1)$, $(1,1)$ とすればいいですね。 $x,y$ の平均は 0、分散は 1 で、共分散は 1 なので、相関係数は 1.00 です。 1.00 になることはあります。よって、これが誤りです。

3は、片方が増えたら片方が減ります。取りうる値が2組なので、散布図をかくと、すべての点はある直線上にあるので、相関係数は -1.00 となります。

厳密に計算するなら、次のようになります。まず、 $x,y$ の平均値は、それぞれ、 $\dfrac{99}{50}$, $\dfrac{1}{50}$ であり、分散は $\dfrac{49}{2500}$, $\dfrac{49}{2500}$ であり、共分散は $-\dfrac{49}{2500}$ となります。相関係数は -1.00 であることがわかります。

4は、片方が増えたら片方が増えます。取りうる値が2組なので、散布図をかくと、すべての点はある直線上にあるので、相関係数は 1.00 となります。

厳密に計算するなら、次のようになります。平均値はともに 1.5 で、分散はともに 0.25 であり、共分散も 0.25 なので、相関係数は 1.00 となります。

解答

ツ:2

解答編 つづき

問題

花子:値の組の個数が 2 のときは、相関係数の値は 1.00 か $\mybox{タ}$ または計算できない場合の 3 通りしかないね。

太郎:値の組を散布図に表したとき、相関係数の値はあくまで散布図の点が $\myBox{テ}$ 程度を表していて、値の組の個数が 2 の場合に、花子さんが言った 3 通りに限られるのは $\myBox{ト}$ からだね。値の組の個数が多くても値の組が 2 種類のときはそれらにしかならないんだね。

花子:なるほどね。相関係数は、そもそも値の組の個数が多いときに使われるものだから、組の個数が極端に少ないときなどにはあまり意味がないのかもしれないね。

太郎:値の組の個数が少ないときはもちろんのことだけど、基本的に散布図と相関係数を合わせてデータの特徴を考えるとよさそうだね。

(4) $\myBox{テ}$, $\myBox{ト}$ に当てはまる最も適当なものを、次の各解答群のうちから一つずつ選べ。

 $\myBox{テ}$ の解答群

 0: $x$ 軸に関して対称に分布する
 1: 変量 $x,y$ のそれぞれの中央値を表す点の近くに分布する
 2: 変量 $x,y$ のそれぞれの平均値を表す点の近くに分布する

 3: 円周に沿って分布する
 4: 直線に沿って分布する

 $\myBox{ト}$ の解答群

 0: 変量 $x$ の中央値と平均値が一致する
 1: 変量 $x$ の四分位数を考えることができない
 2: 変量 $x, y$ のそれぞれの平均値を表す点からの距離が等しい

 3: 平面上の異なる 2点は必ずある直線上にある
 4: 平面上の異なる 2点を通る円はただ 1つに決まらない

解説

相関係数と散布図の関係については、【基本】相関係数と散布図の関係でも書いていますが、相関係数の絶対値の値が大きいほど、ある直線に沿って分布しています。1に近ければ、右肩上がりの直線に沿っていて、-1に近ければ、右肩下がりの直線に沿っています。0に近づくと、直線ではなく、バラバラに分布しているようになります。

値の組の個数が2の場合には、2点を決めると直線が決まるため、「直線に沿って分布する」というよりも、「直線の上に分布する」ことになってしまいます。その直線の傾きが正なら、相関係数は1で、負なら-1、傾きが0なら、相関係数は計算できない、となります。

解答

テ:4
ト:3