標本平均
確率統計(数学B)(教科書範囲) ★★★
標本平均について,その分布や期待値,分散について扱います.
標本調査
ある島があったとします.この島の男性の平均身長を知りたいときに,全員を呼び出して身長を測るのは正確な情報は得られますが,大変です.そこでおおよその値でもいいという場合には,何人かだけ選んで身長を測り,そこから島の男性の平均身長の情報を得ようという考え方があります.
このような調査を標本調査といい,ここでは島の男性全員は母集団,選ばれた人々を標本といいます.一方で島の男性全員を図る場合全数調査といいます.当ページでは標本調査が対象です.
今回の例では島の男性全員の平均身長を母平均といいます.標準偏差は母標準偏差です.一方で標本の平均を標本平均といいます.標本調査では,母平均を標本平均から推測するのが目的の1つです.
次章以降で扱いますが標本平均自体が確率分布になります.どういう分布になるのかも考察対象です.
標本平均の期待値と標準偏差
標本平均と標本標準偏差
母集団から大きさ $n$ の標本を無作為に抽出し,変量が $x$ の標本がもつ確率変数を $X_{1}$,$X_{2}$,$\cdots$,$X_{n}$ とするとき
$\displaystyle \boldsymbol{\overline{X}=\dfrac{1}{n}\sum_{k=1}^{n}X_{k}}$
を標本平均といい
$\displaystyle \boldsymbol{S=\sqrt{\dfrac{1}{n}\sum_{k=1}^{n}(X_{k}-\overline{X})^{2}}}$
を標本標準偏差という.
※ 厳密には,非復元抽出なら確率分布 $X_{1}$,$X_{2}$,$\cdots$,$X_{n}$ が同一とはならないはずですが,母集団が標本に比べてかなり大きい場合には非復元抽出でもそれぞれの分布が同一の分布に従うと考えてよいとされています.
母集団を推測するために標本平均と標本標準偏差を使いますが,特に当ページでは標本平均が対象です.
標本平均自体が(確率分布の和の分布なので)確率分布になりますが,以下で期待値と標準偏差を取り上げます.
標本平均の期待値と標準偏差
母平均 $\mu$,母標準偏差 $\sigma$ の母集団から大きさ $n$ の無作為標本を抽出するとき,標本平均 $\overline{X}$ の期待値と標準偏差は
$\boldsymbol{E(\overline{X})=\mu}$
$\boldsymbol{\sigma(\overline{X})=\dfrac{\sigma}{\sqrt{n}}}$
標本平均の期待値,分散の証明
$\displaystyle E(\overline{X})$
$\displaystyle =E\left(\dfrac{1}{n}\sum_{k=1}^{n}X_{k}\right)$
$\displaystyle =\dfrac{1}{n}\sum_{k=1}^{n}E\left(X_{k}\right)$ ←確率変数の和の期待値
$\displaystyle =\dfrac{1}{n}\cdot n\mu$
$\displaystyle =\mu$
$\displaystyle V(\overline{X})$
$\displaystyle =V\left(\dfrac{1}{n}\sum_{k=1}^{n}X_{k}\right)$
$\displaystyle =\dfrac{1}{n^2}\sum_{k=1}^{n}V\left(X_{k}\right)$ ← $X_{1}$,$X_{2}$,$\cdots$,$X_{n}$ は互いに独立
$=\dfrac{1}{n^2}\cdot n\sigma^{2}$
$=\dfrac{\sigma^{2}}{n}$
$\therefore \ \sigma(\overline{X})=\sqrt{V(\overline{X})}=\dfrac{\sigma}{\sqrt{n}}$
標本平均の分布
中心極限定理(central limit theorem)という,確率論及び統計学での重要定理を紹介します.この定理の存在が正規分布をより重要な存在にさせています.
中心極限定理
期待値 $\mu$,標準偏差 $\sigma$ の互いに独立で同一な分布に従う確率変数 $X_{1}$,$X_{2}$,$\cdots$,$X_{n}$ に対し,$\displaystyle \overline{X}=\dfrac{1}{n}\sum_{k=1}^{n}X_{k}$ とすると
$\displaystyle \boldsymbol{\lim_{n \to \infty}P\left(\frac{\overline{X}-\mu}{\dfrac{\sigma}{\sqrt{n}}}\leqq \alpha\right)=\int_{-\infty}^{\alpha}\dfrac{1}{\sqrt{2\pi}}e^{-\frac{z^{2}}{2}}\,dz}$
証明は割愛しますが,標本の大きさ $n$ が大きいと,標本平均は正規分布に収束していくことを示しています.特に,それぞれの確率分布 $\boldsymbol{X_{i} (i=1,2,\cdots,n)}$ が正規分布でなくてどんな分布でもよいことがこの定理の脅威的なことです.
まとめると以下のようになります.
標本平均の分布
母平均 $\mu$,母標準偏差 $\sigma$ の母集団から大きさ $n$ の無作為標本を抽出するとき,標本平均 $\overline{X}$ は $\boldsymbol{n}$ が十分大きいとき近似的に正規分布 $N\left(\mu,\dfrac{\sigma^2}{n}\right)$ に従うとみなすことができる.
もし母集団が正規分布に従うときは,$\boldsymbol{n}$ が大きくなくても $\overline{X}$ は正規分布 $N\left(\mu,\dfrac{\sigma^2}{n}\right)$ に従う.
※ 後半は正規分布の再生性と呼ばれるものによります.
例題と練習問題
例題
例題
母平均 $80$,母標準偏差 $20$ をもつ母集団から大きさ $100$ の無作為標本を抽出するとき,次の問いに答えよ.
(1) 標本平均 $\overline{X}$ の期待値 $E(\overline{X})$ と分散 $V(\overline{X})$ をそれぞれ求めよ.
(2) $P(\overline{X} \leqq 82)$ を標準正規分布表を使って求めよ.標本の大きさ $100$ は十分大きいので $\overline{X}$ は近似的に正規分布に従うとみなせるとする.
講義
(1)は公式を使えば楽ですが,長期的には導けるようにした方がいいです.(2)では,標本の大きさが十分大きいと $\overline{X}$ は近似的に正規分布に従うとみなせるので,標準化をした$\dfrac{\overline{X}-E(\overline{X})}{\sigma(\overline{X})}$ は標準正規分布に従うとみなせます.つまり標準正規分布表が使えます.
解答
(1)
$E(\overline{X})=\boldsymbol{80}$
$V(\overline{X})$
$\displaystyle =V\left(\dfrac{1}{100}\sum_{k=1}^{100}X_{k}\right)$
$\displaystyle =\dfrac{1}{100^2}\sum_{k=1}^{100}V\left(X_{k}\right)$
$=\dfrac{1}{100^2}\cdot 100\cdot 20^{2}$
$=\boldsymbol{4}$
(2)
$P\left(\overline{X} \leqq 82\right)$
$=P\left(\dfrac{\overline{X}-80}{2} \leqq 1\right)$
$=P\left(\dfrac{\overline{X}-E(\overline{X})}{\sigma(\overline{X})} \leqq 1\right)$
$\displaystyle =0.5+p(1)$
$\displaystyle =0.5+0.3413$
$=\boldsymbol{0.8413}$
練習問題
練習
$a$,$b$ を正の実数とします.確率変数 $X$ の取り得る値の範囲が $-1\leqq X\leqq 3$ であり,その確率密度関数 $f(x)$ は
$\begin{cases}-1\leqq x\leqq 0 \ のとき,f(x)=a(x+1)\\ 0< x\leqq 3 \ のとき,f(x)=bx+a\end{cases}$
と表されています.また,$X$ の期待値 $E(X)$ は $\dfrac{2}{3}$ です.以下の問いに答えなさい.
(1) $a$ と $b$ の値を求めなさい.
(2) $X$ の分散 $V(X)$ を求めなさい.
(3) 確率変数
$Y=18X+5$
を考えます.$Y$ と同じ期待値,分散を持つ母集団から大きさ $117$ の標本を無作為に抽出し,その標本平均を $\overline{Y}$ とします.このとき,標本の大きさ $117$ は十分大きいとみなせるので,$\overline{Y}$ は近似的に正規分布に従うとします.
(ア) $\overline{Y}$ の期待値と分散を求めなさい.
(イ) $16\leqq \overline{Y} \leqq 18$ となる確率の近似値を小数点以下第 $2$ 位まで標準正規分布表を使って求めなさい.
練習の解答 出典:2019横浜市立大(理,医,データサイエンス学部)のV
標準正規分布表
$\displaystyle p(u)=\int_{0}^{u}\dfrac{1}{\sqrt{2\pi}}e^{-\frac{z^{2}}{2}}\,dz$
標準正規分布表の使い方
標準正規分布表の使い方
例えば,$p(1.12)$ を参照したい場合,$1.1$ の行,$.02$ の列を参照します.以下の赤色の値で,$p(1.12)=0.3686$ です.
$p(1.124)$ などの値を出したい場合,線形補完(比例配分)という考え方で算出することが多いです.
$p(1.124)$
$=0.3686+0.4\times (0.3708-0.3686)$
$=0.36948$