共分散と相関係数
データの分析(教科書範囲) ★★★

2変量の関係性の指標である共分散と相関係数について扱います.
このページは数列のシグマ表記がわかる人向けになります.
共分散
世の中には,身長と体重,数学の点数と物理の点数などのように,片方の変量が増えたらもう片方も増えそうな事象があります.
逆に,数学の点数と国語の点数などのように,片方の変量が増えたらもう片方が減りそうな事象もあります.
このように2変量の関係性を掴む概念である共分散(covariance)を紹介します.
共分散の定義
$\displaystyle \boldsymbol{s_{xy}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}$
この定義から,両方の平均を上回っているまたは両方の平均を下回っているデータが多いほどプラスになり,どちらか一方が上回っているデータが多いほどマイナスになります.
すなわち,$\boldsymbol{x}$ が増えれば $\boldsymbol{y}$ も増える傾向(正の相関)にあれば共分散はプラスになり,$\boldsymbol{x}$ が増えれば $\boldsymbol{y}$ が減る傾向(負の相関)にあれば共分散はマイナスになります.
共分散が正なら正の相関があり,負なら負の相関があると言えます.
共分散の定理(別公式)
$\displaystyle \boldsymbol{s_{xy}=\overline{xy}-\overline{x} \cdot \overline{y}}$
※ ただし,$\displaystyle \overline{xy}=\frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i}$ とする.$\overline{xy}$ は便宜的な表記で,正式な表記ではないことをここで断っておきます.
定義を変形すると得られる式ですが,検定教科書では記載がないので共分散のもう1つの出し方で詳しく扱うこととします.
相関係数
共分散のおかげで2変量の相関が分かりますが,1点問題があります.それは単位が発生するので異なるデータ間の相関の強さを比較できません.
相関係数(correlation coefficent)により,数学と物理の点の関係性と,身長と体重の関係性はどちらが強いかなど異なるデータ間の比較をすることができます.
相関係数を以下に定義します.
相関係数の定義
$\displaystyle \boldsymbol{r=\dfrac{s_{xy}}{s_{x}\cdot s_{y}}}$
身長と体重で言うと共分散 $s_{xy}$ の単位はcm $\times$ kg.$s_{x}$ の単位はcm,$s_{y}$ の単位はkgなので,相関係数の定義 $\boldsymbol{r}$ は無単位になります.
相関係数の重要な性質を以下に紹介します.
相関係数の性質
Ⅰ $\boldsymbol{-1\leqq r\leqq 1}$
Ⅱ $\boldsymbol{r=1}$ に近いほど正の相関があり,$\boldsymbol{r=-1}$ に近いほど負の相関がある.$\boldsymbol{r=0}$ に近いときは相関はない.
Ⅰについては高難度ですがなぜ相関係数の範囲が $-1\leqq r\leqq 1$かで詳しく扱います.
相関係数を用いて2変量の(直線的な)相関の強さを見て比較もすることができます.
例題と練習問題
例題
例題
次のデータはある男子 $5$ 人(A,B,C,D,E)の身長と体重のデータで,それぞれ $x$,$y$ とする.
A | B | C | D | E | |
$x$ | $165$ | $165$ | $171$ | $174$ | $180$ |
---|---|---|---|---|---|
$y$ | $60$ | $71$ | $68$ | $77$ | $79$ |
(1) $x$,$y$ のデータの平均値 $\overline{x}$,$\overline{y}$ をそれぞれ求めよ.
(2) $x$,$y$ のデータの標準偏差 $s_{x}$,$s_{y}$ をそれぞれ求めよ.
(3) $x$,$y$ のデータの共分散 $s_{xy}$ と相関係数 $r$ をそれぞれ求めよ.
(4) $x$,$y$ の関係として正しいものを,次のア〜ウのうちから1つ選べ.
ア:身長が高いほど,体重は多い傾向にある.
イ:身長が高いほど,体重は低い傾向にある.
ウ:ア,イのような関係は認められない.
講義
定義に従って分散,共分散,相関係数を素直に出せばいいと思います.
解答
(1) $\displaystyle \overline{x}=\dfrac{1}{5}(165+165+171+174+180)=\boldsymbol{171}$
$\displaystyle \overline{y}=\dfrac{1}{5}(60+71+68+77+9)=\boldsymbol{71}$
※ 仮平均の考え方を使うと楽に平均が出せると思います.
(2)
$\displaystyle s_{x}^{2}=\dfrac{1}{5}\sum_{i=1}^{5}(x_{i}-\overline{x})^2$
$\displaystyle =\dfrac{1}{5}\{(-6)^{2}+(-6)^{2}+0^{2}+3^{2}+9^{2}\}$
$\displaystyle =\dfrac{1}{5}(36+36+0+9+81)$
$\displaystyle =\dfrac{162}{5}$
$\therefore s_{x}=\dfrac{9\sqrt{2}}{\sqrt{5}}=\boldsymbol{\dfrac{9\sqrt{10}}{5}}$
$\displaystyle s_{y}^{2}=\dfrac{1}{5}\sum_{i=1}^{5}(y_{i}-\overline{y})^2$
$\displaystyle =\dfrac{1}{5}\{(-11)^{2}+0^{2}+(-3)^{2}+6^{2}+8^{2}\}$
$\displaystyle =\dfrac{1}{5}(121+0+9+36+64)$
$\displaystyle =46$
$\therefore s_{y}=\boldsymbol{\sqrt{46}}$
(3)
$\displaystyle s_{xy}$
$\displaystyle =\dfrac{1}{5}\sum_{i=1}^{5}(x_{i}-\overline{x})(y_{i}-\overline{y})$
$\displaystyle =\dfrac{1}{5}\left\{\left(-6\right)(-11)+\left(-6\right)\cdot 0+0\cdot\left(-3\right)+3\cdot 6+9\cdot 8\right\}$
$\displaystyle =\boldsymbol{\dfrac{156}{5}}$
$\displaystyle r=\dfrac{s_{xy}}{s_{x}s_{y}}$
$\displaystyle =\boldsymbol{\dfrac{26}{3\sqrt{115}}}$
※ $r$ はおよそ $0.808$ です.
(4) 相関係数がかなり $1$ に近い正なので,身長が高いほど,体重は多い傾向にある.ア
練習問題
練習
次のデータはある1月の田舎のサービスエリアで,その日の最高気温 $x$ (℃) とその日に売れた温かい甘酒の販売数 $y$ (本) の表である.平日の5日間をデータにまとめた.
曜日 | 月 | 火 | 水 | 木 | 金 |
$x$ | $1$ | $1$ | $0$ | $2$ | $4$ |
---|---|---|---|---|---|
$y$ | $6$ | $5$ | $8$ | $7$ | $4$ |
(1) $x$,$y$ のデータの平均値 $\overline{x}$,$\overline{y}$ をそれぞれ求めよ.
(2) $x$,$y$ のデータの標準偏差 $s_{x}$,$s_{y}$ をそれぞれ求めよ.
(3) $x$,$y$ のデータの共分散 $s_{xy}$ と相関係数 $r$ をそれぞれ求めよ.
(4) $x$,$y$ の関係として正しいものを,次のア〜ウのうちから1つ選べ.
ア:最高気温が高いほど,甘酒が売れやすい傾向にある.
イ:最高気温が低いほど,甘酒が売れやすい傾向にある.
ウ:ア,イのような関係は認められない.
解答
共分散のもう1つの出し方の練習問題と問題は共通です.
(1) $\displaystyle \overline{x}=\dfrac{1}{5}(1+1+0+2+4)=\boldsymbol{\dfrac{8}{5}}$
$\displaystyle \overline{y}=\dfrac{1}{5}(6+5+8+7+4)=\boldsymbol{6}$
(2)
$\displaystyle s_{x}^{2}$
$\displaystyle =\dfrac{1}{5}\sum_{i=1}^{5}(x_{i}-\overline{x})^2$
$\displaystyle =\dfrac{1}{5}\left\{\left(-\dfrac{3}{5}\right)^{2}+\left(-\dfrac{3}{5}\right)^{2}+\left(-\dfrac{8}{5}\right)^{2}+\left(-\dfrac{2}{5}\right)^{2}+\left(-\dfrac{12}{5}\right)^{2}\right\}$
$\displaystyle =\dfrac{46}{25}$
$\therefore s_{x}=\boldsymbol{\dfrac{\sqrt{46}}{5}}$
※ $\overline{x}$ が分数なので,$s_{x}^{2}=\overline{x^{2}}-(\overline{x})^{2}$ の方が楽です.
$\displaystyle s_{y}^{2}$
$\displaystyle =\dfrac{1}{5}\sum_{i=1}^{5}(y_{i}-\overline{y})^2$
$\displaystyle =\dfrac{1}{5}\{0^{2}+(-1)^{2}+2^{2}+1^{2}+2^{2}\}$
$\displaystyle =2$
$\therefore s_{y}=\boldsymbol{\sqrt{2}}$
(3)
$\displaystyle s_{xy}$
$\displaystyle =\dfrac{1}{5}\sum_{i=1}^{5}(x_{i}-\overline{x})(y_{i}-\overline{y})$
$\displaystyle =\dfrac{1}{5}\left\{\left(-\dfrac{3}{5}\right)\cdot 0+\left(-\dfrac{3}{5}\right)(-1)+\left(-\dfrac{8}{5}\right)\cdot 2+\left(-\dfrac{2}{5}\right)\cdot 1+\left(-\dfrac{12}{5}\right)\cdot 2\right\}$
$\displaystyle =\boldsymbol{-\dfrac{7}{5}}$
※ $\overline{x}$ が分数なので,$s_{xy}=\overline{xy}-\overline{x} \cdot \overline{y}$ の方が楽です.
$\displaystyle r=\dfrac{s_{xy}}{s_{x}s_{y}}$
$\displaystyle =\boldsymbol{-\dfrac{7\sqrt{23}}{46}}$
※ $r$ はおよそ $-0.73$ です.
(4) 相関係数が負なので,$x$ が下がると $y$ が上がる傾向にある.イ.
※ 寒ければ寒いほど温かい甘酒を飲みたいですよね.