高校数学でわかる単回帰分析
数学ⅡB既習者(難関大対策+) ★★★

単回帰分析について,高校数学の数学ⅡBまでで理解できるように解説します.
一般に回帰分析は,大学の統計学の内容ですが,説明変数を1つに絞った単回帰分析は高校数学で理解可能ですし,稀に大学入試や高校の参考書でも見かけます.
回帰分析の有用性を感じ取ってもらうよう特に工夫しました.
単回帰分析とは
例題
例題
あるドトールの店舗の,夏の1日の最高気温 $x_{i}$ (℃)とヨーグルンの売り上げ本数 $y_{i}$ (本)の関係についてのデータ $(x_{i},y_{i})$ $(1 \leqq i \leqq 10)$ を10個取ったら以下のようになった.
$(26,105)$,$(28,112)$,$(28,113)$,$(29,112)$,$(29,117)$,$(31,118)$,$(31,123)$,$(32,117)$,$(33,123)$,$(33,130)$
明日の最高気温が $30$ ℃,明後日の最高気温が $27$ ℃と予報があり,その通りになるとする.それぞれ何本分のヨーグルンの材料を準備しておくのが無難か.単回帰分析で答えよ.
上の問題を扱います.
ところでヨーグルンとは,ドトールが以下のように出しているフローズンドリンクです.

ドトールコーヒー公式サイトから引用
管理人は大学生のときにドトールコーヒーでアルバイトをしていたので,ヨーグルンが何本売れたのか店長に聞けました.
正確な本数は覚えていないのですが,体感的に暑ければ売れていたような気がしたので,ヨーグルンの売り上げ本数をその日の最高気温で説明できないか仮説を立てました.
単回帰分析とは
まず,上のデータで散布図を書いてみます.

だいぶ相関係数が高そうで,最高気温と売り上げ本数には線形の(直線の)関係がありそうです.
実はこの背後に $x$ と $y$ の関係を説明する直線が存在していて,直線からのズレはあくまで誤差であるとするのが回帰分析の考え方です.

直線を決定するときは主観的に決めるわけにはいきません.回帰分析では,残差の2乗の和(残差平方和)の最小値をとる直線が最良であると考えます.これを最小二乗法といいます.
残差とは,回帰直線を $y=ax+b$ とおいたときの $y$ の観測値と推定値の差 $\color{green}{y_{i}-(ax_{i}+b)}$ のことです.

残差平方和 $\displaystyle \sum_{i=1}^{n}\{y_{i}-(ax_{i}+b)\}^{2}$ は $a$ と $b$ の2変数関数なので,いわゆる予選決勝法で最小値が求められますね.
単回帰分析,重回帰分析,回帰分析の意味の違い
単回帰分析:$y$ を説明するための 変数 $x$ (説明変数)が1つです.高校の数学ⅡBまでで理解可能です.
重回帰分析:$y$ を説明するための 変数 $x$ (説明変数)が2つ以上です.ヨーグルンの売り上げを説明するのに必要な変数は,気温だけでなく,曜日など他の要素もあるかもしれませんね.内容が高度なので,高校数学で扱うのは難しいです.
回帰分析:単回帰分析,重回帰分析を合わせた概念です.
回帰直線の公式と証明
ヨーグルンの例題を解くために,回帰直線の公式の紹介と証明をします.
2変量データ$(x_{i},y_{i})$ $(i=1,2,\cdots,n)$ の $y$ の $x$ に対する回帰直線は
$y-\overline{y}=\dfrac{s_{xy}}{s_{x}^{2}}\left(x-\overline{x}\right)$
$\Longleftrightarrow \ y=\dfrac{s_{xy}}{s_{x}^{2}}x+\overline{y}-\dfrac{s_{xy}}{s_{x}^{2}}\overline{x}$
※最初の式を両辺 $s_{y}$ で割ると $\dfrac{y-\overline{y}}{s_{y}}=r\cdot \dfrac{x-\overline{x}}{s_{x}}$ となり,( $y$ の標準化) $=$ 相関係数 $\times$ ( $x$ の標準化)となるのでこちらは覚えやすいですね.
平均をどちらも $0$ にする平行移動を利用した証明
実データ $(x_{i},y_{i})$ を,$x$ 軸方向に $-\overline{x}$,$y$ 軸方向に $-\overline{y}$ 平行移動した,変換したデータを $X_{i}=x_{i}-\overline{x}$,$Y_{i}=y_{i}-\overline{y}$ とする.$(X_{i},Y_{i})$ に対しての回帰直線を $\alpha x+\beta$ とし,これをまず求める.
データ $Y_{i}$ と $\alpha X_{i}+\beta$ の差(残差)の2乗の和(残差平方和)
$\displaystyle S(\alpha,\beta)=\sum_{i=1}^{n}\{Y_{i}-(\alpha X_{i}+\beta)\}^{2}$
を最小にすることを考える.
$\displaystyle \sum_{i=1}^{n} X_{i}=0$,$\displaystyle \sum_{i=1}^{n} Y_{i}=0$ であることを踏まえ,$S(\alpha,\beta)$ を変形すると
$\displaystyle S(\alpha,\beta)$
$\displaystyle =\sum\{Y_{i}-(\alpha X_{i}+\beta)\}^{2}$ ←以降シグマは略記
$\displaystyle =\sum(-\alpha X_{i}+Y_{i}-\beta)^{2}$
$\displaystyle =\sum\{X_{i}^{2}\alpha^{2}-2X_{i}(Y_{i}-\beta)\alpha+(Y_{i}-\beta)^{2}\}$
$\displaystyle =\left(\sum X_{i}^{2}\right)\alpha^{2}-2\left(\sum X_{i}Y_{i}\right)\alpha+\sum Y_{i}^{2}+n\beta^{2}$
$\displaystyle =\left(\sum X_{i}^{2}\right)\left(\alpha^{2}-\dfrac{\displaystyle 2\sum X_{i}Y_{i}}{\displaystyle \sum X_{i}^{2}}\alpha\right)+\sum Y_{i}^{2}+n\beta^{2}$
$\displaystyle =\left(\sum X_{i}^{2}\right)\left(\alpha-\dfrac{\displaystyle \sum X_{i}Y_{i}}{\displaystyle \sum X_{i}^{2}}\right)^{2}-\dfrac{\left(\displaystyle \sum X_{i}Y_{i}\right)^{2}}{\displaystyle \sum X_{i}^{2}}+\sum Y_{i}^{2}+n\beta^{2}$
以上より
$\beta=0$
$\alpha$
$=\dfrac{\displaystyle \sum X_{i}Y_{i}}{\displaystyle \sum X_{i}^{2}}$
$=\dfrac{\displaystyle \sum (x_{i}-\overline{x})(y_{i}-\overline{y})}{\displaystyle \sum (x_{i}-\overline{x})^{2}}$
$=\dfrac{s_{xy}}{s_{x}^{2}}$
のとき最小なので $(X_{i},Y_{i})$ での回帰直線は
$y=\dfrac{s_{xy}}{s_{x}^{2}}\cdot x$
求める回帰直線は,上の直線を $x$ 軸方向に $\overline{x}$,$y$ 軸方向に $\overline{y}$ 平行移動すればいいので
$y-\overline{y}=\dfrac{s_{xy}}{s_{x}^{2}}\left(x-\overline{x}\right)$
$\Longleftrightarrow \ y=\dfrac{s_{xy}}{s_{x}^{2}}x+\overline{y}-\dfrac{s_{xy}}{s_{x}^{2}}\overline{x}$
※平行移動をしない証明は計算が尋常でない量になるのでやめた方がいいです.
例題と練習問題
上の例題をもう一度載せます.
例題
例題
あるドトールの店舗の,夏の1日の最高気温 $x_{i}$ (℃)とヨーグルンの売り上げ本数 $y_{i}$ (本)の関係についてのデータ $(x_{i},y_{i})$ $(1 \leqq i \leqq 10)$ を10個取ったら以下のようになった.
$(26,105)$,$(28,112)$,$(28,113)$,$(29,112)$,$(29,117)$,$(31,118)$,$(31,123)$,$(32,117)$,$(33,123)$,$(33,130)$
明日の最高気温が $30$ ℃,明後日の最高気温が $27$ ℃と予報があり,その通りになるとする.それぞれ何本分のヨーグルンの材料を準備しておくのが無難か.単回帰分析で答えよ.
講義
上の公式を知っていれば,計算して回帰直線を出すだけです.平均を計算するときは,仮平均の概念を使うと楽ですね.
解答
$\overline{x}=\dfrac{1}{10}(26+28+28+\cdots+33)=30$
$\overline{y}=\dfrac{1}{10}(105+112+113+\cdots+130)=117$
$s_{x}^{2}$
$\displaystyle =\dfrac{1}{10}\sum_{i=1}^{10}(x_{i}-30)^{2}$
$\displaystyle =\dfrac{1}{10}\left\{(-4)^{2}+(-2)^{2}+(-2)^{2}+3^{2}\right\}$
$=5$
$s_{xy}$
$\displaystyle =\dfrac{1}{10}\sum_{i=1}^{10}(x_{i}-30)(y_{i}-117)$
$\displaystyle =\dfrac{1}{10}\left\{(-4)(-12)+(-2)(-5)+(-2)(-4)+\cdots+3\cdot 13\right\}$
$=13.5$
以上より,回帰直線は
$y=\dfrac{13.5}{5}x+117-\dfrac{13.5}{5}\cdot 30=2.7x+36$

これより,明日の材料は $x=30$ を代入すると $2.7\times 30+36=\boldsymbol{117}$ 本.
明後日の材料は $x=27$ を代入すると $2.7\times 27+36=\boldsymbol{108.9}$ 本分準備しておくとよい.
※ 回帰直線に $x=30$ を代入すると $y=117$ になりましたが,回帰直線は $(\overline{x},\overline{y})$ を通るという性質があります.
※ 回帰直線による推定値は,あくまで今までのデータからでは上の答え分売り上げが出る確率が一番高いというだけであって,そもそも,散布図に直線を当てはめるのが妥当かなど別の問題が出ることがあります.
※ ちなみに $s_{y}^{2}=45.2$,$r=\dfrac{27\sqrt{226}}{452}=0.8980\cdots$ です.
練習問題
練習
ある東京の街でのワンルームの賃貸物件の,最寄駅からの距離 $x_{i}$ (m)と家賃月額 $y_{i}$ (万円)の関係についてのデータ $(x_{i},y_{i})$ $(1 \leqq i \leqq 8)$ を8個取ったら以下のようになった.
$(100,8)$,$(200,8)$,$(300,6.5)$,$(500,7)$,$(500,5)$,$(600,6)$,$(800,6)$,$(1000,5.5)$
(1) $y$ の $x$ に対する回帰直線を求めよ.
(2) 新たに最寄駅からの距離が $400$ mで,家賃月額が $7$ 万円の物件を見つけた.この物件は(1)の回帰直線を用いて判断すると割安か割高か.
練習の解答
(1)
$\overline{x}=\dfrac{1}{8}(100+200+300+\cdots+1000)=500$
$\overline{y}=\dfrac{1}{8}(8+8+6.5+\cdots+5.5)=6.5$
$s_{x}^{2}$
$\displaystyle =\dfrac{1}{8}\sum_{i=1}^{8}(x_{i}-500)^{2}$
$\displaystyle =\dfrac{1}{10}\left\{(-400)^{2}+(-300)^{2}+(-200)^{2}+\cdots+500^{2}\right\}$
$=80000$
$s_{xy}$
$\displaystyle =\dfrac{1}{8}\sum_{i=1}^{8}(x_{i}-500)(y_{i}-6.5)$
$\displaystyle =\dfrac{1}{8}\left\{(-400)1.5+(-300)1.5+(-200)0+\cdots+500(-1)\right\}$
$=-\dfrac{1750}{8}=-\dfrac{875}{4}$
以上より,回帰直線は
$y=-\dfrac{875}{320000}x+\dfrac{13}{2}-\dfrac{-875}{320000}\cdot 500=\boldsymbol{-\dfrac{7}{2560}x+\dfrac{1007}{128}}$
(2)

$x=400$ を代入すると $-\dfrac{7}{2560}\cdot400+\dfrac{1007}{128}=\dfrac{867}{128}=6.77\cdots$ 万円
(1)の回帰直線を用いて判断すると割高.
※ こちらの問題もあくまで単回帰分析での判断であって,非線形回帰や,重回帰分析など他の手法の方が適切な事が多々あります.多くの大学や様々な場所で統計学の授業が受講できると思いますのでそれまでのお楽しみに.
※ ちなみに $s_{y}^{2}=\dfrac{17}{16}=1.0625$,$r=-\dfrac{35\sqrt{34}}{272}=-0.750\cdots$ です.