おいしい数学HOMEへのリンク

共分散のもう1つの出し方

数学ⅡB既習者(難関大対策) ★★★

アイキャッチ

高校のデータの分析や統計学で扱う共分散の定義と,それから導かれる定理(別の公式)を紹介します.

このページは数列のシグマ表記がわかる人向けになります.

共分散のもう1つの出し方

共分散

$\displaystyle s_{xy}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})$ (定義)

↓(何回か式変形)

$\displaystyle \boldsymbol{s_{xy}=\overline{xy}-\overline{x} \cdot \overline{y}}$ (定理)

※ ただし,$\displaystyle \overline{xy}=\frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i}$ とする.$\overline{xy}$ は便宜的な表記で,正式な表記ではないことをここで断っておきます.


証明

 $\displaystyle s_{xy}$

$\displaystyle =\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y}) $ (定義)

$=\displaystyle \frac{1}{n}\sum_{i=1}^{n}(x_{i}y_{i}-\overline{y}x_{i}-\overline{x}y_{i}+\overline{x}\cdot\overline{y})$

$=\displaystyle \frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i}-\overline{y}\cdot \frac{1}{n}\sum_{i=1}^{n}x_{i}-\overline{x}\cdot\frac{1}{n}\sum_{i=1}^{n}y_{i}+\frac{1}{n}\cdot n\overline{x} \cdot \overline{y}$

$=\overline{xy}-\overline{y} \cdot \overline{x}-\overline{x} \cdot \overline{y}+\overline{x} \cdot \overline{y}$

$=\overline{xy}-\overline{x} \cdot \overline{y}$ (定理)


共分散の定義から式変形をすると $s_{xy}=\overline{xy}-\overline{x} \cdot \overline{y}$ が言えますが,分散の定理( $s_{x}^{2}=\overline{x^{2}}-(\overline{x})^{2}$ )と似ていますね.このように共分散は,( $xy$ の平均)-( $x$ の平均)( $y$ の平均)で求めることができます.

定理を知っている前提の出題もありますし(2016星薬科大薬学部),定理を証明せよという出題も2016年に京都府立医科大や信州大学で見受けられました.

使い分けの目安

・平均が整数(偏差が整数)またはデータの絶対値が大きいとき:定義を使う.

・平均が分数(小数)などの煩雑な値またはデータの絶対値が小さいとき:定理を使う.

例題と練習問題

例題

例題

次のデータはあるクラスの $5$ 人(A,B,C,D,E)の $10$ 点満点の数学と物理の小テストの結果で,それぞれ $x$,$y$ とする.

A B C D E
$x$ $0$ $3$ $4$ $8$ $10$
$y$ $1$ $0$ $3$ $5$ $9$

(1) $x$,$y$ のデータの平均値 $\overline{x}$,$\overline{y}$ をそれぞれ求めよ.

(2) $x$,$y$ のデータの標準偏差 $s_{x}$,$s_{y}$ をそれぞれ求めよ.

(3) $x$,$y$ のデータの共分散 $s_{xy}$ と相関係数 $r$ をそれぞれ求めよ.

(4) $x$,$y$ の関係として正しいものを,次のア〜ウのうちから1つ選べ.

ア:数学の点が高いほど,物理の点も高い傾向にある.

イ:数学の点が高いほど,物理の点は低い傾向にある.

ウ:ア,イのような関係は認められない.


講義

$x$ は平均が整数(偏差が整数)なので分散は定義を使うと楽です.$y$ は平均(偏差)が分数なので,分散は定理を使います.それにより共分散も定理を使うと少し楽です.


解答

(1) $\displaystyle \overline{x}=\dfrac{1}{5}(0+3+4+8+10)=\boldsymbol{5}$

$\displaystyle \overline{y}=\dfrac{1}{5}(1+0+3+5+9)=\boldsymbol{\dfrac{18}{5}}$


(2)

$\displaystyle s_{x}^{2}=\dfrac{1}{5}\sum_{i=1}^{5}(x_{i}-\overline{x})^2$ $←\overline{x}$ が整数なので

 $\displaystyle =\dfrac{1}{5}\{(-5)^{2}+(-2)^{2}+(-1)^{2}+3^{2}+5^{2}\}$

 $\displaystyle =\dfrac{64}{5}$

$\therefore s_{x}=\boldsymbol{\dfrac{8}{\sqrt{5}}}$

$\displaystyle s_{y}^{2}=\overline{y^{2}}-(\overline{y})^{2}$ $←\overline{y}$ が分数なので

 $\displaystyle =\dfrac{1}{5}(1^{2}+0^{2}+3^{2}+5^{2}+9^{2})-\dfrac{324}{25}$

 $\displaystyle =\dfrac{256}{25}$

$\therefore s_{y}=\boldsymbol{\dfrac{16}{5}}$



(3)

 $\displaystyle s_{xy}$

$\displaystyle =\overline{xy}-\overline{x}\cdot\overline{y}$ $←\overline{x}$ が分数なので

$\displaystyle =\dfrac{1}{5}(0\cdot1+3\cdot0+4\cdot3+8\cdot5+10\cdot9)-5\cdot\dfrac{18}{5}$

$\displaystyle =\boldsymbol{\dfrac{52}{5}}$


$\displaystyle r=\dfrac{s_{xy}}{s_{x}s_{y}}$

$\displaystyle =\boldsymbol{\dfrac{13\sqrt{5}}{32}}$

※ $r$ はおよそ $0.908$ です.


(4) 相関係数がかなり $1$ に近い正なので,数学の点が高いほど,物理の点も高い傾向にある.

練習問題

練習

次のデータはある1月の田舎のサービスエリアで,その日の最高気温 $x$ (℃) とその日に売れた温かい甘酒の販売数 $y$ (本) の表である.平日の5日間をデータにまとめた.

曜日
$x$ $1$ $1$ $0$ $2$ $4$
$y$ $6$ $5$ $8$ $7$ $4$

(1) $x$,$y$ のデータの平均値 $\overline{x}$,$\overline{y}$ をそれぞれ求めよ.

(2) $x$,$y$ のデータの標準偏差 $s_{x}$,$s_{y}$ をそれぞれ求めよ.

(3) $x$,$y$ のデータの共分散 $s_{xy}$ と相関係数 $r$ をそれぞれ求めよ.

(4) $x$,$y$ の関係として正しいものを,次のア〜ウのうちから1つ選べ.

ア:最高気温が高いほど,甘酒が売れやすい傾向にある.

イ:最高気温が低いほど,甘酒が売れやすい傾向にある.

ウ:ア,イのような関係は認められない.

解答

共分散と相関係数の練習問題と問題は共通です.

(1) $\displaystyle \overline{x}=\dfrac{1}{5}(1+1+0+2+4)=\boldsymbol{\dfrac{8}{5}}$

$\displaystyle \overline{y}=\dfrac{1}{5}(6+5+8+7+4)=\boldsymbol{6}$


(2)

$\displaystyle s_{x}^{2}=\overline{x^{2}}-(\overline{x})^{2}$ $←\overline{x}$ が分数なので

 $\displaystyle =\dfrac{1}{5}(1^{2}+1^{2}+0^{2}+2^{2}+4^{2})-\dfrac{64}{25}$

 $\displaystyle =\dfrac{46}{25}$

$\therefore s_{x}=\boldsymbol{\dfrac{\sqrt{46}}{5}}$


$\displaystyle s_{y}^{2}=\dfrac{1}{5}\sum_{i=1}^{5}(y_{i}-\overline{y})^2$ $←\overline{y}$ が整数なので

 $\displaystyle =\dfrac{1}{5}\{0^{2}+(-1)^{2}+2^{2}+1^{2}+2^{2}\}$

 $\displaystyle =2$

$\therefore s_{y}=\boldsymbol{\sqrt{2}}$


(3)

$\displaystyle s_{xy}=\overline{xy}-\overline{x}\cdot\overline{y}$ $←\overline{x}$ が分数なので

 $\displaystyle =\dfrac{1}{5}(1\cdot6+1\cdot5+0\cdot8+2\cdot7+4\cdot4)-\dfrac{8}{5}\cdot6$

 $\displaystyle =\boldsymbol{-\dfrac{7}{5}}$


$\displaystyle r=\dfrac{s_{xy}}{s_{x}s_{y}}$

 $\displaystyle =\boldsymbol{-\dfrac{7\sqrt{23}}{46}}$

※ $r$ はおよそ $-0.73$ です.


(4) 相関係数が負なので,$x$ (最高気温)が下がると $y$ (甘酒の販売数)が上がる傾向にある.

※ 寒ければ寒いほど温かい甘酒を飲みたいですよね.