おいしい数学HOMEへのリンク

共分散と相関係数

データの分析(教科書範囲) ★★★

アイキャッチ

2変量の関係性の指標である共分散と相関係数について扱います.

このページは数列のシグマ表記がわかる人向けになります.

共分散

世の中には,身長と体重,数学の点数と物理の点数などのように,片方の変量が増えたらもう片方も増えそうな事象があります.

逆に,数学の点数と国語の点数などのように,片方の変量が増えたらもう片方が減りそうな事象もあります.

このように2変量の関係性を掴む概念である共分散(covariance)を紹介します.

共分散の定義

$\displaystyle \boldsymbol{s_{xy}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}$


この定義から,両方の平均を上回っているまたは両方の平均を下回っているデータが多いほどプラスになり,どちらか一方が上回っているデータが多いほどマイナスになります.

すなわち,$\boldsymbol{x}$ が増えれば $\boldsymbol{y}$ も増える傾向(正の相関)にあれば共分散はプラスになり,$\boldsymbol{x}$ が増えれば $\boldsymbol{y}$ が減る傾向(負の相関)にあれば共分散はマイナスになります

共分散が正なら正の相関があり,負なら負の相関があると言えます.

共分散の定理(別公式)

$\displaystyle \boldsymbol{s_{xy}=\overline{xy}-\overline{x} \cdot \overline{y}}$

※ ただし,$\displaystyle \overline{xy}=\frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i}$ とする.$\overline{xy}$ は便宜的な表記で,正式な表記ではないことをここで断っておきます.


定義を変形すると得られる式ですが,検定教科書では記載がないので共分散のもう1つの出し方で詳しく扱うこととします.

相関係数

共分散のおかげで2変量の相関が分かりますが,1点問題があります.それは単位が発生するので異なるデータ間の相関の強さを比較できません.

相関係数(correlation coefficent)により,数学と物理の点の関係性と,身長と体重の関係性はどちらが強いかなど異なるデータ間の比較をすることができます.

相関係数を以下に定義します.

相関係数の定義

$\displaystyle \boldsymbol{r=\dfrac{s_{xy}}{s_{x}\cdot s_{y}}}$


身長と体重で言うと共分散 $s_{xy}$ の単位はcm $\times$ kg.$s_{x}$ の単位はcm,$s_{y}$ の単位はkgなので,相関係数の定義 $\boldsymbol{r}$ は無単位になります.

相関係数の重要な性質を以下に紹介します.

相関係数の性質

$\boldsymbol{-1\leqq r\leqq 1}$

$\boldsymbol{r=1}$ に近いほど正の相関があり,$\boldsymbol{r=-1}$ に近いほど負の相関がある.$\boldsymbol{r=0}$ に近いときは相関はない.


Ⅰについては高難度ですがなぜ相関係数の範囲が $-1\leqq r\leqq 1$かで詳しく扱います.

相関係数を用いて2変量の(直線的な)相関の強さを見て比較もすることができます.

例題と練習問題

例題

例題

次のデータはある男子 $5$ 人(A,B,C,D,E)の身長と体重のデータで,それぞれ $x$,$y$ とする.

A B C D E
$x$ $165$ $165$ $171$ $174$ $180$
$y$ $60$ $71$ $68$ $77$ $79$

(1) $x$,$y$ のデータの平均値 $\overline{x}$,$\overline{y}$ をそれぞれ求めよ.

(2) $x$,$y$ のデータの標準偏差 $s_{x}$,$s_{y}$ をそれぞれ求めよ.

(3) $x$,$y$ のデータの共分散 $s_{xy}$ と相関係数 $r$ をそれぞれ求めよ.

(4) $x$,$y$ の関係として正しいものを,次のア〜ウのうちから1つ選べ.

ア:身長が高いほど,体重は多い傾向にある.

イ:身長が高いほど,体重は低い傾向にある.

ウ:ア,イのような関係は認められない.


講義

定義に従って分散共分散相関係数を素直に出せばいいと思います.


解答

(1) $\displaystyle \overline{x}=\dfrac{1}{5}(165+165+171+174+180)=\boldsymbol{171}$

$\displaystyle \overline{y}=\dfrac{1}{5}(60+71+68+77+9)=\boldsymbol{71}$

仮平均の考え方を使うと楽に平均が出せると思います.


(2)

$\displaystyle s_{x}^{2}=\dfrac{1}{5}\sum_{i=1}^{5}(x_{i}-\overline{x})^2$

 $\displaystyle =\dfrac{1}{5}\{(-6)^{2}+(-6)^{2}+0^{2}+3^{2}+9^{2}\}$

 $\displaystyle =\dfrac{1}{5}(36+36+0+9+81)$

 $\displaystyle =\dfrac{162}{5}$

$\therefore s_{x}=\dfrac{9\sqrt{2}}{\sqrt{5}}=\boldsymbol{\dfrac{9\sqrt{10}}{5}}$

$\displaystyle s_{y}^{2}=\dfrac{1}{5}\sum_{i=1}^{5}(y_{i}-\overline{y})^2$

 $\displaystyle =\dfrac{1}{5}\{(-11)^{2}+0^{2}+(-3)^{2}+6^{2}+8^{2}\}$

 $\displaystyle =\dfrac{1}{5}(121+0+9+36+64)$

 $\displaystyle =46$

$\therefore s_{y}=\boldsymbol{\sqrt{46}}$


(3)

 $\displaystyle s_{xy}$

$\displaystyle =\dfrac{1}{5}\sum_{i=1}^{5}(x_{i}-\overline{x})(y_{i}-\overline{y})$

$\displaystyle =\dfrac{1}{5}\left\{\left(-6\right)(-11)+\left(-6\right)\cdot 0+0\cdot\left(-3\right)+3\cdot 6+9\cdot 8\right\}$

$\displaystyle =\boldsymbol{\dfrac{156}{5}}$


$\displaystyle r=\dfrac{s_{xy}}{s_{x}s_{y}}$

$\displaystyle =\boldsymbol{\dfrac{26}{3\sqrt{115}}}$

※ $r$ はおよそ $0.808$ です.


(4) 相関係数がかなり $1$ に近い正なので,身長が高いほど,体重は多い傾向にある.

練習問題

練習

次のデータはある1月の田舎のサービスエリアで,その日の最高気温 $x$ (℃) とその日に売れた温かい甘酒の販売数 $y$ (本) の表である.平日の5日間をデータにまとめた.

曜日
$x$ $1$ $1$ $0$ $2$ $4$
$y$ $6$ $5$ $8$ $7$ $4$

(1) $x$,$y$ のデータの平均値 $\overline{x}$,$\overline{y}$ をそれぞれ求めよ.

(2) $x$,$y$ のデータの標準偏差 $s_{x}$,$s_{y}$ をそれぞれ求めよ.

(3) $x$,$y$ のデータの共分散 $s_{xy}$ と相関係数 $r$ をそれぞれ求めよ.

(4) $x$,$y$ の関係として正しいものを,次のア〜ウのうちから1つ選べ.

ア:最高気温が高いほど,甘酒が売れやすい傾向にある.

イ:最高気温が低いほど,甘酒が売れやすい傾向にある.

ウ:ア,イのような関係は認められない.

解答

共分散のもう1つの出し方の練習問題と問題は共通です.

 

(1) $\displaystyle \overline{x}=\dfrac{1}{5}(1+1+0+2+4)=\boldsymbol{\dfrac{8}{5}}$

$\displaystyle \overline{y}=\dfrac{1}{5}(6+5+8+7+4)=\boldsymbol{6}$


(2)

 $\displaystyle s_{x}^{2}$

$\displaystyle =\dfrac{1}{5}\sum_{i=1}^{5}(x_{i}-\overline{x})^2$

$\displaystyle =\dfrac{1}{5}\left\{\left(-\dfrac{3}{5}\right)^{2}+\left(-\dfrac{3}{5}\right)^{2}+\left(-\dfrac{8}{5}\right)^{2}+\left(-\dfrac{2}{5}\right)^{2}+\left(-\dfrac{12}{5}\right)^{2}\right\}$

$\displaystyle =\dfrac{46}{25}$

$\therefore s_{x}=\boldsymbol{\dfrac{\sqrt{46}}{5}}$

※ $\overline{x}$ が分数なので,$s_{x}^{2}=\overline{x^{2}}-(\overline{x})^{2}$ の方が楽です.


 $\displaystyle s_{y}^{2}$

$\displaystyle =\dfrac{1}{5}\sum_{i=1}^{5}(y_{i}-\overline{y})^2$

$\displaystyle =\dfrac{1}{5}\{0^{2}+(-1)^{2}+2^{2}+1^{2}+2^{2}\}$

$\displaystyle =2$

$\therefore s_{y}=\boldsymbol{\sqrt{2}}$


(3)

 $\displaystyle s_{xy}$

$\displaystyle =\dfrac{1}{5}\sum_{i=1}^{5}(x_{i}-\overline{x})(y_{i}-\overline{y})$

$\displaystyle =\dfrac{1}{5}\left\{\left(-\dfrac{3}{5}\right)\cdot 0+\left(-\dfrac{3}{5}\right)(-1)+\left(-\dfrac{8}{5}\right)\cdot 2+\left(-\dfrac{2}{5}\right)\cdot 1+\left(-\dfrac{12}{5}\right)\cdot 2\right\}$

$\displaystyle =\boldsymbol{-\dfrac{7}{5}}$

※ $\overline{x}$ が分数なので,$s_{xy}=\overline{xy}-\overline{x} \cdot \overline{y}$ の方が楽です.


$\displaystyle r=\dfrac{s_{xy}}{s_{x}s_{y}}$

 $\displaystyle =\boldsymbol{-\dfrac{7\sqrt{23}}{46}}$

※ $r$ はおよそ $-0.73$ です.


(4) 相関係数が負なので,$x$ が下がると $y$ が上がる傾向にある.

※ 寒ければ寒いほど温かい甘酒を飲みたいですよね.