変量の変換をした平均と分散
データの分析(入試の標準) ★★★
変量の変換をした平均と分散について扱います.教科書に記載はほとんどありませんが,入試やその後の統計学で重要な概念です.
数列のシグマ表記を使用しますので見方がわからない人は参照してください.
変量の変換をした平均と分散
平均と分散を出すことがデータ分析の主要な目的の1つですが,データの値そのままで出すよりも,データに操作をしてから出した方が簡単になったり異なるデータを比較しやすかったりします.
そこで変量の変換をしてから平均と分散を出すとどういう変化が起こるのか知っておくことは重要です.
今回は特に変量 $x$ を $y=ax+b$ で変換した変量 $y$ の平均と分散を以下でまとめます.
変量の変換をした平均と分散
変量 $x$ を $y=ax+b$ で変換した変量 $y$ の平均 $\overline{y}$ と分散 $s_{y}^{2}$ は
$\boldsymbol{\displaystyle \overline{y}=a\overline{x}+b}$
$\boldsymbol{\displaystyle s_{y}^{2}=a^{2}s_{x}^{2}}$
証明
変量 $x$ のデータを $x_{k}$ $(k=1,2,\cdots,n)$ とします.すると $y_{k}=ax_{k}+b$ となります.
$\displaystyle \overline{y}$
$\displaystyle =\frac{1}{n}\sum_{k=1}^{n}y_{k}$
$\displaystyle =\frac{1}{n}\sum_{k=1}^{n}(ax_{k}+b)$
$\displaystyle =a\cdot \dfrac{1}{n}\sum_{k=1}^{n}x_{k}+\dfrac{1}{n}\cdot nb$
$\displaystyle =a\overline{x}+b$
$\displaystyle s_{y}^2$
$\displaystyle =\frac{1}{n}\sum_{k=1}^{n}(y_{k}-\overline{y})^2$
$\displaystyle =\frac{1}{n}\sum_{k=1}^{n}\{ax_{k}+b-(a\overline{x}+b)\}^2$
$\displaystyle =a^{2}\cdot \dfrac{1}{n}\sum_{k=1}^{n}(x_{k}-\overline{x})^2$
$\displaystyle =a^{2}s_{x}^{2}$
平均の変化はそのままなので覚えやすいです.分散に関しては,データ全体を左右にずらしても( $b$ を足しても)散らばり具合に変化はないということです.
データの標準化
前章の内容がよく使われる有名な場面に標準化があります.どんなデータに対しても平均を $0$ に(centering),分散(標準偏差)を $1$ に(scaling)変換する操作を標準化(standardization)と言います.
まず分散を $1$ にするには,前章での $a$ を $\dfrac{1}{s_{x}}$ とすればわかりやすいです.さらに平均を $0$ にするには $\dfrac{1}{s_{x}}\overline{x}+b=0$ つまり $b=-\dfrac{1}{s_{x}}\overline{x}$ とすればいいですね.下でまとめます.
データの標準化
変量 $x$ を以下の式で変換する操作を標準化,$z$ をz値(z-score)などという.
$\boldsymbol{\displaystyle z=\dfrac{x-\overline{x}}{s_{x}}}$
これにより $\overline{z}=0$ に,$s_{z}^{2}=1$ となる.
標準化によって,どんなデータであれ平均と分散が統一されるので,z値により異なるデータでもその母集団の中での相対的な位置を把握することができて便利です.
大学入試では理科,社会など異なる選択教科,異なる平均と分散があっても入試で優劣をつけなければいけない場面によく利用されていますし,よく言われる偏差値の概念も標準化とほぼ同じです.
例題と練習問題
例題
例題
次のデータはあるクラス $5$ 人の $100$ 点満点の数学のテストの結果である.
$89$,$90$,$93$,$95$,$100$
この変量を $x$ としたとき,次の問いに答えよ.
(1) データの平均値 $\overline{x}$ を求めよ.
(2) データの分散 $s_{x}^{2}$ を求めよ.
講義
現実的には各種統計解析ツールで簡単に出せますが,データが大きい場合で手計算で出す場合,最初の章の公式を活用すると楽です.
具体的には $y=x-90$ などと適当に変換して計算しやすいようにするといいです.ここで今定めた $90$ を仮平均といいます.
解答
$y=x-90$ で変換すると変量 $y$ は
$-1$,$0$,$3$,$5$,$10$
となる.
(1) $\overline{y}=\dfrac{1}{5}(-1+0+3+5+10)=\dfrac{17}{5}$
$\overline{y}=\overline{x}-90$ より $\overline{x}=\overline{y}+90=\boldsymbol{\dfrac{467}{5}}$
※ 今回は仮平均を $90$ としましたが,$93$ とか他の値に設定しても当然 $\overline{x}$ に変化はありません.
(2)
$\displaystyle s_{y}^{2}=\overline{y^{2}}-(\overline{y})^{2}$ $←\overline{y}$ が分数なので
$\displaystyle =\dfrac{1}{5}\{(-1)^{2}+0^{2}+3^{2}+5^{2}+10^{2}\}-\dfrac{289}{25}$
$\displaystyle =\dfrac{386}{25}$
$s_{y}^{2}=1^{2}\cdot s_{x}^{2}$ より $s_{x}^{2}=s_{y}^{2}=\boldsymbol{\dfrac{386}{25}}$
※ $\overline{x}$ が整数であればそもそも $y$ を使う必要はなく定義通り計算すればいいですが,分散の定理(別公式)を利用する場合,データを $0$ に近づけた方が計算しやすいです.データをずらしただけでは分散に変化がないことを利用しました.
練習問題
練習
生徒 $50$ 人に行ったテストの得点を $x_{1}$,$x_{2}$,$\cdots$,$x_{50}$ とする.得点の平均は $42$,分散は $36$ であった.このとき,$z_{i}=\dfrac{1}{6}x_{i}-7$ $(i=1,2,\cdots,50)$ とおくと $z_{1}$,$z_{2}$,$\cdots$,$z_{50}$ の分散を求めよ.
解答 出典:2019聖マリアンナ医科大
$s_{z}^{2}=\left(\dfrac{1}{6}\right)^{2}s_{x}^{2}=\boldsymbol{1}$
※ 公式で片付けてしまいましたが,定義通り計算して出せるようにもしておくといいと思います.$\overline{z}=\dfrac{1}{6}\overline{x}-7=0$ となるのでこの変換は標準化のことでした.