区間推定
確率統計(数学B)(教科書範囲) ★★★
推定,特に高校では区間推定が対象なのでこれを扱います.
さらに高校では母平均の推定と母比率の推定がメインです.
点推定と区間推定
標本平均のページで島の男性の平均身長の話題を取り上げました.島の男性の平均身長(母平均 $\mu$ )を知りたいときに,標本平均から推測できるかが焦点です.
そもそも標本平均自体が母平均のいい推定値になっていそうです.統計学ではきちんと数学的にこういうときはこういう点で推定値として相応しいと定義します.
標本平均は $E(\overline{X})=\mu$ より平均的に $\mu$ の値になるので,不偏推定量といいます.母平均 $\mu$ の推定値として標本平均 $\overline{X}$ という点で推定することを点推定といいます.
一方で,母平均 $\mu$ をこのぐらいの範囲で収まるだろうと推定したいことがあります.これを区間推定といい,そこで得られた区間を信頼区間といいます.当ページは区間推定が対象です.
母平均の信頼区間
標本平均のページで,標本平均 $\overline{X}$ が $n$ が十分大きいとき近似的に正規分布 $N\left(\mu,\dfrac{\sigma^2}{n}\right)$ に従うとみなすことができるのでした.つまり標準化をした,$\dfrac{\overline{X}-\mu}{\dfrac{\sigma}{\sqrt{n}}}$ は標準正規分布 $N\left(0,1\right)$ に従います.標準正規分布表を使えば
$P\left(-1.96\leqq \dfrac{\overline{X}-\mu}{\dfrac{\sigma}{\sqrt{n}}}\leqq 1.96\right)=0.95$
となることがわかります.これは $-1.96\leqq \dfrac{\overline{X}-\mu}{\dfrac{\sigma}{\sqrt{n}}}\leqq 1.96$ となる確率が $95$ %という意味なので
$-1.96\leqq \dfrac{\overline{X}-\mu}{\dfrac{\sigma}{\sqrt{n}}}\leqq 1.96$
$\Longleftrightarrow \ -1.96\cdot \dfrac{\sigma}{\sqrt{n}}\leqq \overline{X}-\mu\leqq 1.96\cdot \dfrac{\sigma}{\sqrt{n}}$
$\Longleftrightarrow \ -\overline{X}-1.96\cdot \dfrac{\sigma}{\sqrt{n}}\leqq -\mu\leqq -\overline{X}+1.96\cdot \dfrac{\sigma}{\sqrt{n}}$
$\Longleftrightarrow \ \overline{X}-1.96\cdot \dfrac{\sigma}{\sqrt{n}}\leqq \mu\leqq \overline{X}+1.96\cdot \dfrac{\sigma}{\sqrt{n}}$
となる( $\mu$ がこの範囲にある)確率が $95$ %という意味です.数学的にはこの $95$ %という数字に意味はなく,推定をする人の立場によって $90$ %や $99$ %等別の数値にしてもいいわけです(一般的には $95$ %と $99$ %が多いです).
これらの手続きによって得た範囲を信頼区間といいます.
母平均の信頼区間
標本の大きさ $n$ が十分大きいとき,母平均 $\mu$ に対する信頼区間はそれぞれ
$95$ %: $\displaystyle \boldsymbol{\left[\overline{X}-1.96\cdot \dfrac{\sigma}{\sqrt{n}}, \ \overline{X}+1.96\cdot \dfrac{\sigma}{\sqrt{n}}\right]}$
$99$ %: $\displaystyle \boldsymbol{\left[\overline{X}-2.58\cdot \dfrac{\sigma}{\sqrt{n}}, \ \overline{X}+2.58\cdot \dfrac{\sigma}{\sqrt{n}}\right]}$
$\sigma$ が既知であることはあるのか?
$\sigma$ が既知であることはあるのか?
$\mu$ がわからないから推定するのに,さらに詳しい情報である $\sigma$ が既知であるというのは通常考えられません.
つまり一般的には $\sigma$ も推定値を用意する必要があります(数学Bの内容はここまで踏み込むと高度になるので取り上げられていませんが).
$\sigma$ の推定値として高校の検定教科書では,$n$ が大きいときならば
$\displaystyle S=\sqrt{\dfrac{1}{n}\sum_{k=1}^{n}(X_{k}-\overline{X})^2}$
を用いてよいとあります.確かに $n$ が大きいなら問題は少ないです.
この $S$ を用いた $\dfrac{\overline{X}-\mu}{\dfrac{S}{\sqrt{n}}}$ は実を言うと正規分布に従いません.しかもこの $S$ は $E(S)=\sigma$ とならないので,$\sigma$ のいい推定値となっていません(正確に言うと不偏推定量ではありません).$S$ ではなく
$\displaystyle s=\sqrt{\dfrac{1}{n-1}\sum_{k=1}^{n}(X_{k}-\overline{X})^2}$
とすると $\sigma$ の不偏推定量になり,これを用いた $\dfrac{\overline{X}-\mu}{\dfrac{s}{\sqrt{n}}}$ は $t$ 分布に従います.大学以降の統計学ではこれを扱います.
母比率の信頼区間
ある工場での製品の不良率等のように,比率の推定をしたいとします.
無作為抽出した製品が $n$ 個あり,$i$ 番目が不良なら $1$,そうでなければ $0$ と対応させれば不良率は
$\overline{p}=\overline{X}=\dfrac{X_{1}+X_{2}+\cdots+X_{n}}{n}$
標本平均で考えることができます.これを標本比率といい $\overline{p}$ や $R$ 等で表します.
標本比率の期待値と分散は
$E(\overline{p})$
$=E(\overline{X})$
$=\dfrac{p+p+\cdots+p}{n}$
$=p$
$V(\overline{p})$
$=V(\overline{X})$
$=V\left(\dfrac{X_{1}+X_{2}+\cdots+X_{n}}{n}\right)$
$\displaystyle =\dfrac{1}{n^2}\sum_{k=1}^{n}V(X_{k})$
$\displaystyle =\dfrac{1}{n^2}\sum_{k=1}^{n}\left\{E(X_{k}^2)-(E(X_{k}))^2\right\}$
$\displaystyle =\dfrac{1}{n^2}\sum_{k=1}^{n}(p-p^{2})$
$=\dfrac{p(1-p)}{n}$
より,標本比率 $\overline{p}$ は $n$ が十分大きいとき近似的に正規分布 $N\left(p,\dfrac{p(1-p)}{n}\right)$ に従うとみなせます.
母平均の信頼区間と同様に,$\overline{X}$ → $\overline{p}$,$\dfrac{\sigma}{\sqrt{n}}$ → $\sqrt{\dfrac{p(1-p)}{n}}$ と変更すると母比率の信頼区間が考えられます.
高校の検定教科書では,$p$ は実際にはわからないので,$n$ が大きいときには $p$ の代わりに $\overline{p}$ を使ってよいとしています.つまり $\dfrac{\sigma}{\sqrt{n}}$ → $\sqrt{\dfrac{\overline{p}(1-\overline{p})}{n}}$ として母比率の信頼区間が考えられます.
母比率の信頼区間
標本の大きさ $n$ が十分大きいとき,母平均 $\mu$ に対する信頼区間はそれぞれ
$95$ %: $\displaystyle \boldsymbol{\left[\overline{p}-1.96\cdot \sqrt{\dfrac{\overline{p}(1-\overline{p})}{n}}, \ \overline{p}+1.96\cdot \sqrt{\dfrac{\overline{p}(1-\overline{p})}{n}}\right]}$
$99$ %: $\displaystyle \boldsymbol{\left[\overline{p}-2.58\cdot \sqrt{\dfrac{\overline{p}(1-\overline{p})}{n}}, \ \overline{p}+2.58\cdot \sqrt{\dfrac{\overline{p}(1-\overline{p})}{n}}\right]}$
例題と練習問題
例題
例題
ある町の成人女性の $100$ 人の身長の平均は $156$ cmであった.この町の成人女性の身長の母標準偏差が $6$ cmとしたとき,この町の成人女性の平均身長 $\mu$ の $95$ %信頼区間と $99$ %信頼区間を小数第 $2$ 位を四捨五入して小数第 $1$ 位でそれぞれ求めよ.
講義
現実的には母標準偏差がわかっていることはあまりないですが,こういう想定での問題です.
公式を忘れた場合,$\dfrac{\overline{X}-\mu}{\dfrac{\sigma}{\sqrt{n}}}$ が標準正規分布 $N\left(0,1\right)$ に従うことから信頼区間を導ける必要があります.
解答
$95$ %信頼区間は $1.96\cdot \dfrac{6}{\sqrt{100}}=1.176$ より
$156-1.176\leqq \mu \leqq 156+1.176$
$\therefore \boldsymbol{154.8 \leqq \mu \leqq157.2}$
$99$ %信頼区間は $2.58\cdot \dfrac{6}{\sqrt{100}}=1.548$ より
$156-1.548\leqq \mu \leqq 156+1.548$
$\therefore \boldsymbol{154.5 \leqq \mu \leqq157.5}$
練習問題
練習
ある地方で,小学生 $200$ 人を無作為に選んで虫歯を調査したら,$80$ 人が虫歯をもっていた.
(1) この地方の小学生の虫歯保有率 $p$ の $95$ %信頼区間を求めよ.
(2) 虫歯保有率 $p$ を標本比率で推定したときの誤差が $5$ %以下である確率を $95$ %にしたい.およそ何人以上の小学生を調査しなければならないか.
練習の解答 出典:2019横浜市立大(理,医,データサイエンス学部)のV
標準正規分布表
$\displaystyle p(u)=\int_{0}^{u}\dfrac{1}{\sqrt{2\pi}}e^{-\frac{z^{2}}{2}}\,dz$
標準正規分布表の使い方
標準正規分布表の使い方
例えば,$p(1.12)$ を参照したい場合,$1.1$ の行,$.02$ の列を参照します.以下の赤色の値で,$p(1.12)=0.3686$ です.
$p(1.124)$ などの値を出したい場合,線形補完(比例配分)という考え方で算出することが多いです.
$p(1.124)$
$=0.3686+0.4\times (0.3708-0.3686)$
$=0.36948$