おいしい数学HOMEへのリンク

高校数学でわかる単回帰分析

タイプ:難関大対策 $+\alpha$ レベル:★★★ 


アイキャッチ

このページでは,単回帰分析について,高校数学の数学ⅡBまでで理解できるように説明します.

一般に回帰分析は,大学の統計学の内容ですが,説明変数を1つに絞った単回帰分析は高校数学で理解可能ですし,稀に大学入試や高校の参考書でも見かけます.

当ページは回帰分析とは何かについて解説し,その有用性を感じ取ってもらい,演習問題で定着できるように工夫しました.





単回帰分析とは

このページでは,次の問題を考えます.



例題

例題

あるドトールの店舗の,夏の1日の最高気温 $x_{i}$ (℃)とヨーグルンの売り上げ本数 $y_{i}$ (本)の関係についてのデータ $(x_{i},y_{i})$ $(1 \leqq i \leqq 10)$ を10個取ったら以下のようになった.

$(26,105)$,$(28,112)$,$(28,113)$,$(29,112)$,$(29,117)$,$(31,118)$,$(31,123)$,$(32,117)$,$(33,123)$,$(33,130)$

明日の最高気温が $30$ ℃,明後日の最高気温が $27$ ℃と予報があり,その通りになるとする.それぞれ何本分のヨーグルンの材料を準備しておくのが無難か.単回帰分析で答えよ.



きっかけ

ところでヨーグルンとは,ドトールが以下のように出しているフローズンドリンクです.

ヨーグルン

ドトールコーヒー公式サイトから引用

管理人は大学生のときにドトールコーヒーでアルバイトをしていたので,ヨーグルンが何本売れたのか店長に聞けました.

正確な本数は覚えていないのですが,体感的に暑ければ売れていたような気がしたので,ヨーグルンの売り上げ本数をその日の最高気温で説明できないか仮説を立てました.



単回帰分析とは

まず,上のデータで散布図を書いてみます.

ヨーグルンの散布図

だいぶ相関係数が高そうで,最高気温と売り上げ本数には線形の(直線の)関係がありそうです.

実はこの背後に $x$ と $y$ の関係を説明する直線が存在していて,直線からのズレはあくまで誤差であるとするのが回帰分析の考え方です.

ヨーグルンの散布図2

直線を決定するときは主観的に決めるわけにはいきません.回帰分析では,残差の2乗の和(残差平方和)の最小値をとる直線が最良であると考えます.これを最小二乗法といいます.

残差とは,回帰直線を $y=ax+b$ とおいたときの $y$ の観測値と推定値の差 $\color{green}{y_{i}-(ax_{i}+b)}$ のことです.

ヨーグルンの散布図3

残差平方和 $\displaystyle \sum_{i=1}^{n}\{y_{i}-(ax_{i}+b)\}^{2}$ は $a$ と $b$ の2変数関数なので,いわゆる予選決勝法で最小値が求められますね.



単回帰分析,重回帰分析,回帰分析の意味の違い

単回帰分析は $y$ を説明するための 変数 $x$ (説明変数)が1つです.高校の数学ⅡBまでで理解可能です.

重回帰分析は $y$ を説明するための 変数 $x$ (説明変数)が2つ以上です.ヨーグルンの売り上げを説明するのに必要な変数は,気温だけでなく,曜日など他の要素もあるかもしれませんね.内容が高度なので,高校数学で扱うのは難しいです.

回帰分析は,単回帰分析,重回帰分析を合わせた概念です.




回帰直線の公式と証明

ヨーグルンの例題を解くために,回帰直線の公式の紹介と証明をします.


ポイント

2変量データ$(x_{i},y_{i})$ $(i=1,2,\cdots,n)$ の $y$ の $x$ に対する回帰直線は

$y-\overline{y}=\dfrac{s_{xy}}{s_{x}^{2}}\left(x-\overline{x}\right)$

$\Longleftrightarrow \ y=\dfrac{s_{xy}}{s_{x}^{2}}x+\overline{y}-\dfrac{s_{xy}}{s_{x}^{2}}\overline{x}$

※最初の式を両辺 $s_{y}$ で割ると $\dfrac{y-\overline{y}}{s_{y}}=r\cdot \dfrac{x-\overline{x}}{s_{x}}$ となり,( $y$ の標準化) $=$ 相関係数 $\times$ ( $x$ の標準化)となるのでこちらは覚えやすいですね.



証明

下に格納しました.数学ⅡBまでで理解可能なので是非ご覧ください.平行移動での証明が簡単でオススメで,どこかの入試で出そうですね.

証明




例題と練習問題

上の例題をもう一度載せます.


例題

例題

あるドトールの店舗の,夏の1日の最高気温 $x_{i}$ (℃)とヨーグルンの売り上げ本数 $y_{i}$ (本)の関係についてのデータ $(x_{i},y_{i})$ $(1 \leqq i \leqq 10)$ を10個取ったら以下のようになった.

$(26,105)$,$(28,112)$,$(28,113)$,$(29,112)$,$(29,117)$,$(31,118)$,$(31,123)$,$(32,117)$,$(33,123)$,$(33,130)$

明日の最高気温が $30$ ℃,明後日の最高気温が $27$ ℃と予報があり,その通りになるとする.それぞれ何本分のヨーグルンの材料を準備しておくのが無難か.単回帰分析で答えよ.


講義

上の公式を知っていれば,計算して回帰直線を出すだけです.平均を計算するときは,仮平均の概念を使うと楽ですね.


解答

$\overline{x}=\dfrac{1}{10}(26+28+28+\cdots+33)=30$

$\overline{y}=\dfrac{1}{10}(105+112+113+\cdots+130)=117$


 $s_{x}^{2}$

$\displaystyle =\dfrac{1}{10}\sum_{i=1}^{10}(x_{i}-30)^{2}$

$\displaystyle =\dfrac{1}{10}\left\{(-4)^{2}+(-2)^{2}+(-2)^{2}+3^{2}\right\}$

$=5$


 $s_{xy}$

$\displaystyle =\dfrac{1}{10}\sum_{i=1}^{10}(x_{i}-30)(y_{i}-117)$

$\displaystyle =\dfrac{1}{10}\left\{(-4)(-12)+(-2)(-5)+(-2)(-4)+\cdots+3\cdot 13\right\}$

$=13.5$


以上より,回帰直線は

$y=\dfrac{13.5}{5}x+117-\dfrac{13.5}{5}\cdot 30=2.7x+36$

ヨーグルンの散布図2

これより,明日の材料は $x=30$ を代入すると $2.7\times 30+36=\boldsymbol{117}$ 本.

明後日の材料は $x=27$ を代入すると $2.7\times 27+36=\boldsymbol{108.9}$ 本分準備しておくとよい.


※ 回帰直線に $x=30$ を代入すると $y=117$ になりましたが,回帰直線は $(\overline{x},\overline{y})$ を通るという性質があります.

※ 回帰直線による推定値は,あくまで今までのデータからでは上の答え分売り上げが出る確率が一番高いというだけであって,そもそも,散布図に直線を当てはめるのが妥当かなど別の問題が出ることがあります.

※ ちなみに $s_{y}^{2}=45.2$,$r=\dfrac{27\sqrt{226}}{452}=0.8980\cdots$ です.



練習問題

練習

ある東京の街でのワンルームの賃貸物件の,最寄駅からの距離 $x_{i}$ (m)と家賃月額 $y_{i}$ (万円)の関係についてのデータ $(x_{i},y_{i})$ $(1 \leqq i \leqq 8)$ を8個取ったら以下のようになった.

$(100,8)$,$(200,8)$,$(300,6.5)$,$(500,7)$,$(500,5)$,$(600,6)$,$(800,6)$,$(1000,5.5)$

(1) $y$ の $x$ に対する回帰直線を求めよ.

(2) 新たに最寄駅からの距離が $400$ mで,家賃月額が $7$ 万円の物件を見つけた.この物件は(1)の回帰直線を用いて判断すると割安か割高か.

練習の解答



ノートに戻る