五数要約と箱ひげ図
データの分析(教科書範囲) ★★

データの散らばりを表す指標である五数要約とそれを可視化した箱ひげ図について扱います.
また,範囲,四分位範囲についても扱います.
五数要約とは
五数要約(five number summary)とは,以下の統計量でデータの特徴を掴むことを言います.
中央値を理解していることが前提です.
ポイント
五数要約
最大値:データの最大値
第3四分位数 $\boldsymbol{Q_{3}}$:上位のデータの中央値
中央値(第2四分位数 $\boldsymbol{Q_{2}}$ ):データの中央にくる値
第1四分位数 $\boldsymbol{Q_{1}}$:下位のデータの中央値
最小値:データの最小値
※ $Q_{1}$ などのQは四分位数(quartile points)の頭文字が由来です.
上の指標によってデータ全体が大きい値から25%ずつ区分けされているのがわかります.
データの細かいことはわかりませんが,大まかな散らばりを把握することができます.
箱ひげ図
前章の五数要約を視覚的に表した図として箱ひげ図(box plot)を紹介します.
ポイント
箱ひげ図

※ 平均値は省くことが多いです.
真ん中の箱の部分には全体の約半分が.左右に伸びた線のことをひげと言いますが,ひげには左右それぞれ約25%ずつ存在します.
外れ値があるとひげが伸びる特徴があるので,それらを入れるか入れないかはその都度考えます.また,図の中で○や✳︎等でそれらを表す場合もあります.
歴史
箱ひげ図の歴史について
https://thestatsninja.com/2019/02/07/the-box-and-whisker-plot-for-grown-ups/やhttps://vita.had.co.nz/papers/boxplots.pdfによると,当ページレベルの箱ひげ図はMary Eleanor Spear の著書 Charting Statistics で range barとして 1952年に紹介されたとか.その後,外れ値の対応も含めた箱ひげ図が1970年にJohn Tukeyによって1970年に提唱されたようです.
データの比較に便利
次のデータは,数学の小テストのAクラス,Bクラスの点数の結果です.
A:$2$,$3$,$5$,$6$,$7$,$9$,$10$
B:$4$,$5$,$5$,$6$,$6$,$7$,$9$
上の2つのデータはどちらも平均値も中央値も $6$ になっていますが,これだけでは同じようなデータであると判断することはできません.

箱ひげ図にすると上のようになり,データの散らばりが一目でわかります.Aの方がばらつきがあることがわかりますね.
範囲と四分位範囲
データの特徴を掴む手段として,平均値,中央値,最頻値などの代表値がありますが,散らばりを表す手段として以下のような指標があります(ここでは分散は扱いません).
ポイント
散らばりを表す指標
範囲:最大値 $-$ 最小値
四分位範囲:$Q_{3}-Q_{1}$
四分位偏差:$\dfrac{Q_{3}-Q_{1}}{2}$
範囲は外れ値の影響を受けますので,その場合四分位範囲または四分位偏差で比較することがあります.
前章の数学の小テストのAクラス,Bクラスの点数の結果
A:$2$,$3$,$5$,$6$,$7$,$9$,$10$
B:$4$,$5$,$5$,$6$,$6$,$7$,$9$

であれば
A:範囲 $8$,四分位範囲 $6$,四分位偏差 $3$
B:範囲 $5$,四分位範囲 $2$,四分位偏差 $1$
どれを見てもAの方が散らばりが大きいことが(図を書かなくても)わかります.
例題と練習問題
例題
例題
次のデータはある高校のクラスの数学の期末試験の14人の結果を小さい順に並べたものである.
$0$,$3$,$10$,$14$,$14$,$16$,$18$,$36$,$40$,$41$,$47$,$48$,$62$,$69$
(1) 第1四分位数,中央値,第3四分位数をそれぞれ求めよ.
(2) 箱ひげ図をかけ.
(3) 範囲,四分位範囲,四分位偏差をそれぞれ求めよ.
講義
まずは下位のデータと上位のデータに分けると見やすいですね.
下位:$0$,$3$,$10$,$14$,$14$,$16$,$18$
上位:$36$,$40$,$41$,$47$,$48$,$62$,$69$
解答
(1)
$Q_{1}=\boldsymbol{14}$
(中央値) $=\dfrac{18+36}{2}=\boldsymbol{27}$
$Q_{3}=\boldsymbol{47}$
(2)

(3)
(範囲) $=69-0=\boldsymbol{69}$
(四分位範囲) $=47-14=\boldsymbol{33}$
(四分位偏差) $=\dfrac{47-14}{2}=\boldsymbol{\dfrac{33}{2}}$
練習問題
練習
次のデータはある高校のクラスの数学の中間試験と期末試験の13人の結果を小さい順に並べたものである.
中間:$4$,$16$,$24$,$28$,$31$,$37$,$52$,$58$,$62$,$70$,$70$,$72$,$100$
期末:$60$,$60$,$60$,$70$,$72$,$74$,$74$,$76$,$76$,$88$,$92$,$95$,$96$
(1) 中間試験と期末試験のそれぞれの箱ひげ図をかけ.
(2) 四分位範囲によってデータの散らばりの度合いを比較せよ.
解答
(1)

(2)
中間試験の四分位範囲:$70-26=44$
期末試験の四分位範囲:$89.5-65=24.5$
中間試験の方が散らばりが大きい.