おいしい数学HOME

偏差平方和と絶対偏差和を最小にする話

数学ⅡB既習者(難関大対策+) ★★★

アイキャッチ

データのばらつき(散らばり)を表す統計量の元となる偏差平方の和と絶対偏差の和を考えます.

大学入試でもいくつかこのテーマの出題例があるので,それについての解説ページです.内容はそこまで難しくありませんが,大学入試での出題例が極めて低いので,興味がある人向けです.

偏差平方の和と絶対偏差の和の最小は?

高校のデータの分析での,データのばらつきを表す指標(統計量)は,標準偏差(分散)四分位範囲などありますが,統計学まで広げると多々あります.統計量にはそれぞれメリットやデメリットがあることを把握する上で,統計解析することが重要です.

このページでは,次の問題を考えます.

例題

例題

$n$ 個の数値データ $x_{i} \ (i=1,2,\cdots,n)$ がある.次の関数 $f(a)$,$g(b)$ を最小にする $a$,$b$ をそれぞれ求めよ.

$\displaystyle f(a)=\sum_{i=1}^{n}(x_{i}-a)^{2}$

$\displaystyle g(b)=\sum_{i=1}^{n}|x_{i}-b|$


講義

ところで偏差の意味を各種教科書や論文,大辞林などで調べると意味が様々なので,当ページでは,各データと平均や中央値など様々な統計量との差とする広義の意味とします.つまり,上の $x_{i}-a$ や $x_{i}-b$ は偏差とみなすことにします.

そして,$f(a)$ は偏差平方和であり,$g(a)$ は絶対偏差和と言うことにします.これらを最小にする $a$,$b$ が何なのかに興味があります.平均化した $\dfrac{1}{n}f(a)$,$\dfrac{1}{n}g(b)$ はその式から散らばりを表す指標と考えて良さそうですが,どうせなら最小値を採用したいです.


解答

$f(a)$ に関しては $a$ の2次関数なので,平方完成するだけです.

 $f(a)$

$\displaystyle =\sum_{i=1}^{n}(x_{i}-a)^{2}$

$\displaystyle =\sum_{i=1}^{n}(x_{i}^{2}-2x_{i}a+a^{2})$

$\displaystyle =na^{2}-2\left(\sum_{i=1}^{n}x_{i}\right)a+\sum_{i=1}^{n}x_{i}^{2}$

$\displaystyle =n\left\{a^{2}-\dfrac{2}{n}\left(\sum_{i=1}^{n}x_{i}\right)a\right\}+\sum_{i=1}^{n}x_{i}^{2}$

$\displaystyle =n\left(a^{2}-2\overline{x}a\right)+\sum_{i=1}^{n}x_{i}^{2}$

$\displaystyle =n\left(a-\overline{x}\right)^{2}-n\left(\overline{x}\right)^{2}+\sum_{i=1}^{n}x_{i}^{2}$

以上より,$\boldsymbol{a=\overline{x}}$ つまり平均のとき最小.

このときの $\dfrac{1}{n}f(a)$ が分散ですね.


$g(a)$ に関してですが,まず,$x_{i} \ (i=1,2,\cdots,n)$ を小さい順に並べ替えたものの数列を新たに,$X_{i} \ (i=1,2,\cdots,n) $ $(X_{1} \leqq X_{2} \leqq \cdots \leqq X_{n})$ とします.そして,$X_{k} \leqq b \leqq X_{k+1}$ とすると

 $g(b)$

$\displaystyle =\sum_{i=1}^{n}|X_{i}-b|$

$\displaystyle =\sum_{i=1}^{k}(b-X_{i})+\sum_{i=k+1}^{n}(X_{i}-b)$

$\displaystyle =kb-\sum_{i=1}^{k}X_{i}+\sum_{i=k+1}^{n}X_{i}-(n-k)b$

$\displaystyle =(2k-n)b-\sum_{i=1}^{k}X_{i}+\sum_{i=k+1}^{n}X_{i}$

(ⅰ) $n=2m+1$ ( $m$ は整数)のとき

$0 \leqq k \leqq m$ ,つまり $b \leqq X_{m+1}$ では $g(b)$ は傾きが負の1次関数なので,$g(b)$ は単調減少.

$m+1 \leqq k \leqq n$ ,つまり $X_{m+1} \leqq b$ では $g(b)$ は傾きが正の1次関数なので,$g(b)$ は単調増加.

以上より,$\boldsymbol{b=X_{m+1}}$ のとき,つまり中央値のとき,$g(b)$ は最小.

(ⅱ) $n=2m$ ( $m$ は整数)のとき

$0 \leqq k \leqq m-1$ ,つまり $b \leqq X_{m}$ では $g(b)$ は傾きが負の1次関数なので,$g(b)$ は単調減少.

$k=m$ ,つまり $X_{m} \leqq b \leqq X_{m+1}$ では $\displaystyle g(b)=-\sum_{i=1}^{m}X_{i}+\sum_{i=m+1}^{n}X_{i}$ となり,$g(b)$ は一定の値をとる.

$m+1 \leqq k \leqq n$ ,つまり $X_{m+1} \leqq b$ では $g(b)$ は傾きが正の1次関数なので,$g(b)$ は単調増加.

以上より,$b$ が $\boldsymbol{X_{m} \leqq b \leqq X_{m+1}}$ のとき,$g(b)$ は最小(この範囲に中央値も入っています).

このページのまとめ

まとめ

$n$ 個の数値データ $x_{i} \ (i=1,2,\cdots,n)$ がある.

$\displaystyle \dfrac{1}{n}\sum_{i=1}^{n}(x_{i}-a)^{2}$

を最小にする $a$ の値は $x_{i}$ の平均であり,上の式を分散という.


$\displaystyle \dfrac{1}{n}\sum_{i=1}^{n}|x_{i}-b|$

を最小にする $b$ の値は

$n$ が奇数のとき,$x_{i}$ の中央値

$n$ が偶数のとき,$x_{i}$ の下位のデータの最大値以上と上位のデータの最小値以下の値

つまりどちらの場合も $x_{i}$ の中央値が,上の式を最小にする.

※上の式で,$b$ が $x_{i}$ の平均ときを平均偏差(mean deviation)ということが多いようです.しかし肝心の $b$ が $x_{i}$ の中央値のときの名前の言及をしているサイトや論文がほぼ見当たらず,https://ci.nii.ac.jp/naid/110006967032など中央値絶対偏差と名付けている論文もあります(ちなみに,中央絶対偏差という指標がよく見つかりますが,それは $|x_{i}-(x_{i}の中央値)|$ の中央値のことが多いです).

それぞれのメリット

分散 $\displaystyle s_{x}^{2}=\dfrac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}$ (または標準偏差)と 絶対偏差の平均 $\displaystyle \dfrac{1}{n}\sum_{i=1}^{n}|x_{i}-b|$ ( $b$ は平均でも中央値でも可)はどちらもばらつきを合わす統計量ですが,前者は2乗なので微分がしやすいなどの数学的扱いに優れたメリットがあり,後者は外れ値(outlier)の影響を受けにくいというメリットがあります.

例題と練習問題

例題

例題

次の (あ)  (い) に当てはまる語句を答えよ.

3つのデータ $1$,$2$,$6$ について

$f(a)=\dfrac{1}{3}\{(1-a)^{2}+(2-a)^{2}+(6-a)^{2}\}$

$g(a)=\dfrac{1}{3}\{|1-a|+|2-a|+|6-a|\}$

とおく.$f(a)$ を最小にする $a$ は3つのデータの (あ) であり,$g(a)$ を最小にする $a$ は3つのデータの (い) である.


講義

2019年聖マリアンナ医科大の出題です.上の知識を知っていれば即答できる問題でした.しかし知らなければ下のように計算する必要があります.


解答

$x_{1}=1$,$x_{2}=2$,$x_{3}=6$ とすると

 $f(a)$

$\displaystyle=\dfrac{1}{3}\sum_{i=1}^{3}(x_{i}-a)^{2}$

$\displaystyle=\dfrac{1}{3}\sum_{i=1}^{3}(x_{i}^{2}-2x_{i}a+a^{2})$

$\displaystyle =a^{2}-\dfrac{2}{3}\left(\sum_{i=1}^{3}x_{i}\right)a+\dfrac{1}{3}\sum_{i=1}^{3}x_{i}^{2}$

$\displaystyle =\left\{a^{2}-\dfrac{2}{3}\left(\sum_{i=1}^{3}x_{i}\right)a\right\}+\dfrac{1}{3}\sum_{i=1}^{3}x_{i}^{2}$

$\displaystyle =\left(a^{2}-2\overline{x}a\right)+\dfrac{1}{3}\sum_{i=1}^{3}x_{i}^{2}$

$\displaystyle =\left(a-\overline{x}\right)^{2}-\left(\overline{x}\right)^{2}+\dfrac{1}{3}\sum_{i=1}^{3}x_{i}^{2}$

以上より,$a=\overline{x}$ つまり平均のとき最小.


$x_{k} \leqq a \leqq x_{k+1}$ とすると

 $g(a)$

$\displaystyle =\sum_{i=1}^{3}|x_{i}-a|$

$\displaystyle =\sum_{i=1}^{k}(a-x_{i})+\sum_{i=k+1}^{3}(x_{i}-a)$

$\displaystyle =ka-\sum_{i=1}^{k}x_{i}+\sum_{i=k+1}^{3}x_{i}-(3-k)a$

$\displaystyle =(2k-3)a-\sum_{i=1}^{k}x_{i}+\sum_{i=k+1}^{3}x_{i}$

$0 \leqq k \leqq 1$ ,つまり $a \leqq x_{2}=2$ では $g(a)$ は傾きが負の1次関数なので,$g(a)$ は単調減少.

$1 \leqq k \leqq 3$ ,つまり $x_{1}=2 \leqq a$ では $g(a)$ は傾きが正の1次関数なので,$g(a)$ は単調増加.

以上より,$a=x_{1}=2$ のとき,つまり中央値のとき,$g(a)$ は最小.

練習問題

練習

次のデータは,ある高校3年生9人の100点満点の試験の結果である.

$65$,$83$,$64$,$69$,$89$,$68$,$77$,$70$,$81$

データを順に,$x_{1}$,$x_{2}$,$x_{3}$,$\cdots$,$x_{9}$ と表す.このとき,$\displaystyle \sum_{i=1}^{9}(x_{i}-\theta)^{2}$ を最小にする $\theta$ の値は  アイ  である.また,$\displaystyle \sum_{i=1}^{9}|x_{i}-\theta|$を最小にする $\theta$ の値は  ウエ  である.

解答 出典:2015東邦大医学部

$\displaystyle=\sum_{i=1}^{9}(x_{i}-\theta)^{2}$

$\displaystyle=\sum_{i=1}^{9}(x_{i}^{2}-2x_{i}\theta+\theta^{2})$

$\displaystyle =9\theta^{2}-2\left(\sum_{i=1}^{9}x_{i}\right)\theta+\sum_{i=1}^{9}x_{i}^{2}$

$\displaystyle =9\left\{\theta^{2}-\dfrac{2}{9}\left(\sum_{i=1}^{9}x_{i}\right)\theta\right\}+\sum_{i=1}^{9}x_{i}^{2}$

$\displaystyle =9\left(\theta^{2}-2\overline{x}\theta\right)+\sum_{i=1}^{9}x_{i}^{2}$

$\displaystyle =9\left(\theta-\overline{x}\right)^{2}-9\left(\overline{x}\right)^{2}+\sum_{i=1}^{9}x_{i}^{2}$

以上より,$\theta=\overline{x}=\dfrac{1}{9}(65+\cdots+81)=\boldsymbol{74}$ のとき最小.


続いて,$x_{i} \ (i=1,2,\cdots,9)$ を小さい順に並べ替えたものの数列を新たに,$X_{i} \ (i=1,2,\cdots,9) $ $(X_{1} \leqq X_{2} \leqq \cdots \leqq X_{9})$ とします.そして,$X_{k} \leqq \theta \leqq X_{k+1}$ とすると

 $\displaystyle \sum_{i=1}^{9}|x_{i}-\theta|$

$\displaystyle =\sum_{i=1}^{9}|X_{i}-\theta|$

$\displaystyle =\sum_{i=1}^{k}(\theta-X_{i})+\sum_{i=k+1}^{9}(X_{i}-\theta)$

$\displaystyle =k\theta-\sum_{i=1}^{k}X_{i}+\sum_{i=k+1}^{9}X_{i}-(9-k)\theta$

$\displaystyle =(2k-9)\theta-\sum_{i=1}^{k}X_{i}+\sum_{i=k+1}^{9}X_{i}$

$0 \leqq k \leqq 4$ ,つまり $\theta \leqq X_{5}=70$ では $\displaystyle \sum_{i=1}^{9}|x_{i}-\theta|$ は傾きが負の1次関数なので,$\displaystyle \sum_{i=1}^{9}|x_{i}-\theta|$ は単調減少.

$5 \leqq k \leqq 9$ ,つまり $X_{5}=70 \leqq \theta$ では $\displaystyle \sum_{i=1}^{9}|x_{i}-\theta|$ は傾きが正の1次関数なので,$\displaystyle \sum_{i=1}^{9}|x_{i}-\theta|$ は単調増加.

以上より,$\theta=X_{5}=\boldsymbol{70}$ のとき,$\displaystyle \sum_{i=1}^{9}|x_{i}-\theta|$ は最小.