共分散のもう1つの出し方
数学ⅡB既習者(難関大対策) ★★★

高校のデータの分析や統計学で扱う共分散の定義と,それから導かれる定理(別の公式)を紹介します.
このページは数列のシグマ表記がわかる人向けになります.
共分散のもう1つの出し方
ポイント
共分散
$\displaystyle s_{xy}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})$ (定義)
↓(何回か式変形)
$\displaystyle \boldsymbol{s_{xy}=\overline{xy}-\overline{x} \cdot \overline{y}}$ (定理)
※ ただし,$\displaystyle \overline{xy}=\frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i}$ とする.$\overline{xy}$ は便宜的な表記で,正式な表記ではないことをここで断っておきます.
証明
$\displaystyle s_{xy}$
$\displaystyle =\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y}) $ (定義)
$=\displaystyle \frac{1}{n}\sum_{i=1}^{n}(x_{i}y_{i}-\overline{y}x_{i}-\overline{x}y_{i}+\overline{x}\cdot\overline{y})$
$=\displaystyle \frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i}-\overline{y}\cdot \frac{1}{n}\sum_{i=1}^{n}x_{i}-\overline{x}\cdot\frac{1}{n}\sum_{i=1}^{n}y_{i}+\frac{1}{n}\cdot n\overline{x} \cdot \overline{y}$
$=\overline{xy}-\overline{y} \cdot \overline{x}-\overline{x} \cdot \overline{y}+\overline{x} \cdot \overline{y}$
$=\overline{xy}-\overline{x} \cdot \overline{y}$ (定理)
共分散の定義から式変形をすると $s_{xy}=\overline{xy}-\overline{x} \cdot \overline{y}$ が言えますが,分散の定理( $s_{x}^{2}=\overline{x^{2}}-(\overline{x})^{2}$ )と似ていますね.このように共分散は,( $xy$ の平均)-( $x$ の平均)( $y$ の平均)で求めることができます.
定理を知っている前提の出題もありますし(2016星薬科大薬学部),定理を証明せよという出題も2016年に京都府立医科大や信州大学で見受けられました.
使い分けの目安
・平均が整数(偏差が整数)またはデータの絶対値が大きいとき:定義を使う.
・平均が分数(小数)などの煩雑な値またはデータの絶対値が小さいとき:定理を使う.
例題と練習問題
例題
例題
次のデータはあるクラスの $5$ 人(A,B,C,D,E)の $10$ 点満点の数学と物理の小テストの結果で,それぞれ $x$,$y$ とする.
A | B | C | D | E | |
$x$ | $0$ | $3$ | $4$ | $8$ | $10$ |
---|---|---|---|---|---|
$y$ | $1$ | $0$ | $3$ | $5$ | $9$ |
(1) $x$,$y$ のデータの平均値 $\overline{x}$,$\overline{y}$ をそれぞれ求めよ.
(2) $x$,$y$ のデータの標準偏差 $s_{x}$,$s_{y}$ をそれぞれ求めよ.
(3) $x$,$y$ のデータの共分散 $s_{xy}$ と相関係数 $r$ をそれぞれ求めよ.
(4) $x$,$y$ の関係として正しいものを,次のア〜ウのうちから1つ選べ.
ア:数学の点が高いほど,物理の点も高い傾向にある.
イ:数学の点が高いほど,物理の点は低い傾向にある.
ウ:ア,イのような関係は認められない.
講義
$x$ は平均が整数(偏差が整数)なので分散は定義を使うと楽です.$y$ は平均(偏差)が分数なので,分散は定理を使います.それにより共分散も定理を使うと少し楽です.
解答
(1) $\displaystyle \overline{x}=\dfrac{1}{5}(0+3+4+8+10)=\boldsymbol{5}$
$\displaystyle \overline{y}=\dfrac{1}{5}(1+0+3+5+9)=\boldsymbol{\dfrac{18}{5}}$
(2)
$\displaystyle s_{x}^{2}=\dfrac{1}{5}\sum_{i=1}^{5}(x_{i}-\overline{x})^2$ $←\overline{x}$ が整数なので
$\displaystyle =\dfrac{1}{5}\{(-5)^{2}+(-2)^{2}+(-1)^{2}+3^{2}+5^{2}\}$
$\displaystyle =\dfrac{64}{5}$
$\therefore s_{x}=\boldsymbol{\dfrac{8}{\sqrt{5}}}$
$\displaystyle s_{y}^{2}=\overline{y^{2}}-(\overline{y})^{2}$ $←\overline{y}$ が分数なので
$\displaystyle =\dfrac{1}{5}(1^{2}+0^{2}+3^{2}+5^{2}+9^{2})-\dfrac{324}{25}$
$\displaystyle =\dfrac{256}{25}$
$\therefore s_{y}=\boldsymbol{\dfrac{16}{5}}$
(3)
$\displaystyle s_{xy}$
$\displaystyle =\overline{xy}-\overline{x}\cdot\overline{y}$ $←\overline{x}$ が分数なので
$\displaystyle =\dfrac{1}{5}(0\cdot1+3\cdot0+4\cdot3+8\cdot5+10\cdot9)-5\cdot\dfrac{18}{5}$
$\displaystyle =\boldsymbol{\dfrac{52}{5}}$
$\displaystyle r=\dfrac{s_{xy}}{s_{x}s_{y}}$
$\displaystyle =\boldsymbol{\dfrac{13\sqrt{5}}{32}}$
※ $r$ はおよそ $0.908$ です.
(4) 相関係数がかなり $1$ に近い正なので,数学の点が高いほど,物理の点も高い傾向にある.ア
練習問題
練習
次のデータはある1月の田舎のサービスエリアで,その日の最高気温 $x$ (℃) とその日に売れた温かい甘酒の販売数 $y$ (本) の表である.平日の5日間をデータにまとめた.
曜日 | 月 | 火 | 水 | 木 | 金 |
$x$ | $1$ | $1$ | $0$ | $2$ | $4$ |
---|---|---|---|---|---|
$y$ | $6$ | $5$ | $8$ | $7$ | $4$ |
(1) $x$,$y$ のデータの平均値 $\overline{x}$,$\overline{y}$ をそれぞれ求めよ.
(2) $x$,$y$ のデータの標準偏差 $s_{x}$,$s_{y}$ をそれぞれ求めよ.
(3) $x$,$y$ のデータの共分散 $s_{xy}$ と相関係数 $r$ をそれぞれ求めよ.
(4) $x$,$y$ の関係として正しいものを,次のア〜ウのうちから1つ選べ.
ア:最高気温が高いほど,甘酒が売れやすい傾向にある.
イ:最高気温が低いほど,甘酒が売れやすい傾向にある.
ウ:ア,イのような関係は認められない.
解答
共分散と相関係数の練習問題と問題は共通です.
(1) $\displaystyle \overline{x}=\dfrac{1}{5}(1+1+0+2+4)=\boldsymbol{\dfrac{8}{5}}$
$\displaystyle \overline{y}=\dfrac{1}{5}(6+5+8+7+4)=\boldsymbol{6}$
(2)
$\displaystyle s_{x}^{2}=\overline{x^{2}}-(\overline{x})^{2}$ $←\overline{x}$ が分数なので
$\displaystyle =\dfrac{1}{5}(1^{2}+1^{2}+0^{2}+2^{2}+4^{2})-\dfrac{64}{25}$
$\displaystyle =\dfrac{46}{25}$
$\therefore s_{x}=\boldsymbol{\dfrac{\sqrt{46}}{5}}$
$\displaystyle s_{y}^{2}=\dfrac{1}{5}\sum_{i=1}^{5}(y_{i}-\overline{y})^2$ $←\overline{y}$ が整数なので
$\displaystyle =\dfrac{1}{5}\{0^{2}+(-1)^{2}+2^{2}+1^{2}+2^{2}\}$
$\displaystyle =2$
$\therefore s_{y}=\boldsymbol{\sqrt{2}}$
(3)
$\displaystyle s_{xy}=\overline{xy}-\overline{x}\cdot\overline{y}$ $←\overline{x}$ が分数なので
$\displaystyle =\dfrac{1}{5}(1\cdot6+1\cdot5+0\cdot8+2\cdot7+4\cdot4)-\dfrac{8}{5}\cdot6$
$\displaystyle =\boldsymbol{-\dfrac{7}{5}}$
$\displaystyle r=\dfrac{s_{xy}}{s_{x}s_{y}}$
$\displaystyle =\boldsymbol{-\dfrac{7\sqrt{23}}{46}}$
※ $r$ はおよそ $-0.73$ です.
(4) 相関係数が負なので,$x$ (最高気温)が下がると $y$ (甘酒の販売数)が上がる傾向にある.イ.
※ 寒ければ寒いほど温かい甘酒を飲みたいですよね.