分散と標準偏差
データの分析(教科書範囲) ★★
高校のデータの分析や統計学で扱う分散と標準偏差について扱います.
数列のシグマ表記を使用しますので見方がわからない人は参照してください.
分散と標準偏差
分散
ある高校の定期試験で,数学と家庭科の平均点がどちらも70点だったとします.これらの情報から2つの試験はどちらも同じような試験だったと判定することはできません.
数学はかなり点が低い人と高い人が混在し,家庭科では皆平均点付近に集中していたとします.この場合2つの試験では散らばり具合が異なります.
散らばりの大きさの指標があると図にしなくてもわかるので便利です.そこでその指標の1つである分散を以下のように定義します.
分散
変量 $x$ についての $n$ 個のデータの値が $x_{k}$ $(k=1,2,\cdots,n)$ であるとする.$x_{k}-\overline{x}$ を偏差といい,分散を偏差の2乗の平均値
$\boldsymbol{\displaystyle s_{x}^{2}=\frac{1}{n}\sum_{k=1}^{n}(x_{k}-\overline{x})^{2}}$
で定義する.
※ 高校では普通平均からの差を偏差としますが,統計学などでは必ずしもそうでない場合があります.
偏差の2乗の平均をとる理由は,どのデータに対しても必ず $0$ 以上にするためです.
どのデータに対しても必ず $0$ 以上にするならば,絶対値をとったっていいはずです.これについては少し高度なので下に格納します.
平均偏差
平均偏差
$\boldsymbol{\displaystyle \frac{1}{n}\sum_{k=1}^{n}\left|x_{k}-\overline{x}\right|}$
以上の式で表される統計量を平均偏差(mean diviation)ということが多いです.こちらも散らばりを表す立派な指標ですが,総合的に分散(後述する標準偏差)の方が使われる傾向にあります.
分散(標準偏差)のメリット:微分がしやすいなどの数学的扱いに優れる.
平均偏差のメリット:2乗しないので外れ値の影響を受けにくい.
標準偏差
先述した分散は,先ほどの数学や家庭科の定期試験の場合,2乗しているので単位が点$^2$ となり扱いが悪い場合があります.単位を揃えるときに分散の平方根をとった $s_{x}$ が用いられます.これを標準偏差といいます.
標準偏差
変量 $x$ についての 標準偏差 $s_{x}$ は分散の正の平方根
$\boldsymbol{s_{x}=\sqrt{s_{x}^2}}$
で定義する.
範囲,四分位範囲との違い
範囲,四分位範囲も散らばりを表す統計量ですが,これらは計算しやすい,外れ値の影響を分散よりは受けにくいという特徴があります.
分散,標準偏差はすべてのデータの情報をきちんと盛り込めるのが特徴です.
分散のもう1つの出し方
分散に関する定理
変量 $x$ についての $n$ 個のデータの値が $x_{k}$ $(k=1,2,\cdots,n)$ であるとする.分散 $s_{x}^2$ に関して
$\boldsymbol{\displaystyle s_{x}^{2}=\overline{x^2}-(\overline{x})^2}$
が成り立つ.
※ ただし,$\displaystyle \overline{x^2}=\frac{1}{n}\sum_{k=1}^{n}x_{k}^{2}$ とする.$\overline{x^2}$ は便宜的な表記で,正式な表記ではないことをここで断っておきます.
証明
$\displaystyle s_{x}^2$
$\displaystyle =\frac{1}{n}\sum_{k=1}^{n}(x_{k}-\overline{x})^{2}$
$\displaystyle =\frac{1}{n}\sum_{k=1}^{n}(x_{k}^{2}-2\overline{x}x_{k}+(\overline{x})^2)$
$\displaystyle =\frac{1}{n}\sum_{k=1}^{n}x_{k}^{2}-2\overline{x}\cdot \frac{1}{n}\sum_{k=1}^{n}x_{k}+\frac{1}{n}\sum_{k=1}^{n}(\overline{x})^2$
$\displaystyle =\frac{1}{n}\sum_{k=1}^{n}x_{k}^{2}-2(\overline{x})^2+\frac{1}{n}\cdot n(\overline{x})^2$
$\displaystyle =\overline{x^2}-(\overline{x})^2$
証明は将来の統計学の学習でも重要で,理解しておくべきです.当サイトでは定理と呼称することがあります.
高校で算出する際は人間が意図的に作った問題を解くので定義で算出しやすいことが多いですが,偏差が小数や分数などの扱いにくい数のときまたはデータの値が $\boldsymbol{0}$ に近いときにこちらで計算するのがオススメです.
例題と練習問題
例題
例題
次のデータは英語の10点満点の小テストのXとYの2クラスの結果である.XとYの結果をそれぞれ $x$,$y$ とする.
$x$ | $2$ | $2$ | $4$ | $8$ | $9$ |
---|---|---|---|---|---|
$y$ | $0$ | $2$ | $6$ | $7$ | $9$ |
(1) $x$,$y$ のデータの平均値 $\overline{x}$,$\overline{y}$ をそれぞれ求めよ.
(2) $x$,$y$ のデータの分散 $s_{x}^{2}$,$s_{y}^{2}$ をそれぞれ求めよ.
(3) $x$,$y$ のデータの標準偏差 $s_{x}$,$s_{y}$ をそれぞれ求めよ.
(4) $x$,$y$ のデータについて,標準偏差によって平均からの散らばりの度合いを比較せよ.
講義
$x$ は平均が整数(偏差が整数)なので分散は定義を使うと楽です.$y$ は平均(偏差)が分数なので,分散は定理を使うと楽.
解答
(1) $\displaystyle \overline{x}=\dfrac{1}{5}(2+2+4+8+9)=\boldsymbol{5}$
$\displaystyle \overline{y}=\dfrac{1}{5}(0+2+6+7+9)=\boldsymbol{\dfrac{24}{5}}$
(2)
$\displaystyle s_{x}^{2}=\dfrac{1}{5}\sum_{k=1}^{5}(x_{k}-\overline{x})^2$ $←\overline{x}$ が整数なので
$\displaystyle =\dfrac{1}{5}\{(-3)^{2}+(-3)^{2}+(-1)^{2}+3^{2}+4^{2}\}$
$\displaystyle =\boldsymbol{\dfrac{44}{5}}$
$\displaystyle s_{y}^{2}=\overline{y^{2}}-(\overline{y})^{2}$ $←\overline{y}$ が分数なので
$\displaystyle =\dfrac{1}{5}(0^{2}+2^{2}+6^{2}+7^{2}+9^{2})-\dfrac{576}{25}$
$\displaystyle =\boldsymbol{\dfrac{274}{25}}$
(3)
$s_{x}=\dfrac{2\sqrt{11}}{\sqrt{5}}=\boldsymbol{\dfrac{2\sqrt{55}}{5}}$
$s_{y}=\boldsymbol{\dfrac{\sqrt{274}}{5}}$
(4) $s_{x}<s_{y}$ より $\boldsymbol{y}$ の方が散らばりの度合いが大きい.
※ 今回はデータの値が $0$ に近かったので定理が活躍しましたが,データの絶対値が大きいと定理も不便です.しかし,すべてのデータに同じ値を足したり引いたりしても分散と標準偏差は変化しないという性質を使えば,データ全体を動かしてから計算するのも有効です.
練習問題
練習
次のデータは数学の10点満点の小テストのXとYの2クラスの結果である.XとYの結果をそれぞれ $x$,$y$ とする.
$x$ | $4$ | $5$ | $6$ | $7$ | $8$ |
---|---|---|---|---|---|
$y$ | $0$ | $1$ | $9$ | $10$ | $10$ |
(1) $x$,$y$ のデータの平均値 $\overline{x}$,$\overline{y}$ をそれぞれ求めよ.
(2) $x$,$y$ のデータの分散 $s_{x}^{2}$,$s_{y}^{2}$ をそれぞれ求めよ.
(2) $x$,$y$ のデータの標準偏差 $s_{x}$,$s_{y}$ をそれぞれ求めよ.
(4) $x$,$y$ のデータについて,標準偏差によって平均からの散らばりの度合いを比較せよ.
解答
(1) $\displaystyle \overline{x}=\dfrac{1}{5}(4+5+6+7+8)=\boldsymbol{6}$
$\displaystyle \overline{y}=\dfrac{1}{5}(0+1+9+10+10)=\boldsymbol{6}$
(2)
$\displaystyle s_{x}^{2}=\dfrac{1}{5}\sum_{k=1}^{5}(x_{k}-\overline{x})^2$
$\displaystyle =\dfrac{1}{5}\{(-2)^{2}+(-1)^{2}+0^{2}+1^{2}+2^{2}\}$
$\displaystyle =\boldsymbol{2}$
$\displaystyle s_{y}^{2}=\overline{y^{2}}-(\overline{y})^{2}$
$\displaystyle =\dfrac{1}{5}(0^{2}+1^{2}+9^{2}+10^{2}+10^{2})-36$
$\displaystyle =\boldsymbol{\dfrac{102}{5}}$
※ $y$ は2乗の和が計算しやすいと思い定理で計算しましたが,もちろん定義通り計算していいと思います.
(3)
$s_{x}=\boldsymbol{\sqrt{2}}$
$s_{y}=\dfrac{\sqrt{102}}{\sqrt{5}}=\boldsymbol{\dfrac{\sqrt{510}}{5}}$
(4) $s_{x}<s_{y}$ より $\boldsymbol{y}$ の方が散らばりの度合いが大きい.