おいしい数学HOME

なぜ相関係数の範囲が $-1≦r≦1$ か

数学ⅡB既習者(難関大対策+) ★★★

アイキャッチ

なぜ相関係数の範囲が $-1\leqq r \leqq 1$ であるか.その証明を2通りの方法で示します.高校範囲で示せるものと,大学範囲の数学を使うものがあります.

ちなみに,大学入試では2019年明治大学の総合数理学部でデータが3個のときの証明が出題されています.

例題と証明方法の紹介

例題

例題

2つの変量 $x$,$y$ のデータが,$n$ 個の $x$,$y$ の値の組として $(x_{1},y_{1})$,$(x_{2},y_{2})$,$\cdots$,$(x_{n},y_{n})$ のように与えられているとき,相関係数 $r$ に関して

$-1\leqq r \leqq 1$

であることを示せ.


この設定での証明を今回は考えることにします.

相関係数 $r$ の範囲が $-1\leqq r \leqq 1$ であることの証明

コーシーシュワルツの不等式を使う方法

Ⅱ $n$ 次元ベクトルを使う方法


Ⅰは高校範囲で示すことができます.

Ⅱは ( $n$ 次元ユークリッド空間内の) $n$ 次元ベクトルを使う時点で大学範囲ですが,幾何学的にもわかりやすいです.

高校範囲での証明

Ⅰでの証明

コーシーシュワルツの不等式

$\displaystyle \left(\sum_{i=1}^{n}a_{i}^{2}\right)\left(\sum_{i=1}^{n}b_{i}^{2}\right)\geqq\left(\sum_{i=1}^{n}a_{i}b_{i}\right)^{2}$

を使うのでまずこれを示します.

関数 $f_{i}(x)=(a_{i}x-b_{i})^{2} \ (i=1,2,\cdots,n)$ を $i=1,2,\cdots,n$ まで足すと

 $\displaystyle \sum_{i=1}^{n}(a_{i}x-b_{i})^{2}$

$\displaystyle =\left(\sum_{i=1}^{n}a_{i}^{2}\right)x^{2}-2\left(\sum_{i=1}^{n}a_{i}b_{i}\right)x+\left(\sum_{i=1}^{n}b_{i}^{2}\right)\geqq 0$

より,判別式が $0$ 以下なので

$\displaystyle \dfrac{D}{4}=\left(\sum_{i=1}^{n}a_{i}b_{i}\right)^{2}-\left(\sum_{i=1}^{n}a_{i}^{2}\right)\left(\sum_{i=1}^{n}b_{i}^{2}\right)\leqq 0$

$\therefore \displaystyle \left(\sum_{i=1}^{n}a_{i}^{2}\right)\left(\sum_{i=1}^{n}b_{i}^{2}\right)\geqq\left(\sum_{i=1}^{n}a_{i}b_{i}\right)^{2}$

上の式で,$a_{i}=x_{i}-\overline{x}$,$b_{i}=y_{i}-\overline{y}$ とおくと

$\displaystyle \left\{\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}\right\}\left\{\sum_{i=1}^{n}(y_{i}-\overline{y})^{2}\right\}\geqq\left\{\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})\right\}^{2}$

$\displaystyle \Longleftrightarrow \left\{\dfrac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}\right\}\left\{\dfrac{1}{n}\sum_{i=1}^{n}(y_{i}-\overline{y})^{2}\right\}\geqq\left\{\dfrac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})\right\}^{2}$

$\displaystyle \Longleftrightarrow s_{x}^{2}s_{y}^{2}\geqq s_{xy}^{2}$

$\displaystyle \Longleftrightarrow 1\geqq r^{2}$

$\therefore \ -1\leqq r \leqq 1$

大学範囲での証明

Ⅱでの証明

$x$ の偏差(deviation)のベクトルを $\overrightarrow{\mathstrut d_{x}}$,$y$ の偏差のベクトルを $\overrightarrow{\mathstrut d_{y}}$ とすると

$\overrightarrow{\mathstrut d_{x}}=\begin{pmatrix}x_{1}-\overline{x} \\x_{2}-\overline{x} \\ \vdots \\ x_{n}-\overline{x}\end{pmatrix}$, $\overrightarrow{\mathstrut d_{y}}=\begin{pmatrix}y_{1}-\overline{y} \\y_{2}-\overline{y} \\ \vdots \\ y_{n}-\overline{y}\end{pmatrix}$

となる.$x$ と $y$ の分散共分散

$\displaystyle s_{x}^2=\frac{1}{n}|\overrightarrow{\mathstrut d_{x}}|^2$,$\displaystyle s_{y}^2=\frac{1}{n}|\overrightarrow{\mathstrut d_{y}}|^2$,$\displaystyle s_{xy}=\frac{1}{n}\overrightarrow{\mathstrut d_{x}}\cdot \overrightarrow{\mathstrut d_{y}}$

となるので,相関係数 $r$ は,$\overrightarrow{\mathstrut d_{x}}$ と $\overrightarrow{\mathstrut d_{y}}$ のなす角を $\theta$ とすると

$\displaystyle r=\frac{s_{xy}}{s_{x}s_{y}}=\frac{\dfrac{1}{n}\overrightarrow{\mathstrut d_{x}}\cdot \overrightarrow{\mathstrut d_{y}}}{\sqrt{\dfrac{1}{n}|\overrightarrow{\mathstrut d_{x}}|^{2}}\sqrt{\dfrac{1}{n}|\overrightarrow{\mathstrut d_{y}}|^{2}}}=\frac{\overrightarrow{\mathstrut d_{x}}\cdot \overrightarrow{\mathstrut d_{y}}}{|\overrightarrow{\mathstrut d_{x}}||\overrightarrow{\mathstrut d_{y}}|}=\cos\theta$

$\therefore \ -1\leqq r \leqq 1$

まとめ

なんとⅡで,相関係数の正体は2つの変量の偏差のベクトルのなす角の $\cos$ であることがわかりました.だから範囲が $-1\leqq r \leqq 1$ なんですね.

例えば相関係数が $0.5$ だと,2つの変量の偏差のベクトルはなす角が $60°$ ということです.

相関係数が $1$ に近いほど,$x$ と $y$ の偏差のベクトルのなす角は $0°$ に近く正の相関が強い(逆に $-1$ に近いほど,$x$ と $y$ の偏差のベクトルのなす角は $180°$ に近く負の相関が強い)ということで,直感にもあっています.