おいしい数学HOMEへのリンク

データの代表値

データの分析(教科書範囲) 

アイキャッチ

データの代表値(平均値,中央値,最頻値)について扱います.

数列のシグマ表記を使用しますので見方がわからない人は参照してください.

データの代表値

クラスで定期試験があるとすぐ生徒は平均点を知りたがります.それは平均値がその集団全員の数値を汲み取り反映された値で,'真ん中に近い' 値がわかるからだと思います.

しかし,真ん中に近い値を表すなら常に平均値が適切でしょうか.よく会社の平均年収が話題になりますが,社長が異常に年収が高く(株の配当収入もあるかも),1人で平均値を釣り上げるのは話題になりますよね.

そこでこのページでは3つの代表値である,平均値(mean),中央値(median),最頻値(mode)を紹介します.

データの代表値

平均値:$\displaystyle \overline{x}=\frac{1}{n}\sum_{k=1}^{n}x_{k}$ ←シグマ記号表記

中央値:データの中央にくる値

最頻値:最も頻繁に出現する値

※ $Q_{1}$ などのQは四分位数(quartile points)の頭文字が由来です.


最頻値はそのままですが,中央値については次の章で詳しく扱います.

左に歪んだグラフ

左に歪んだグラフ1

上の図のように,左に歪んだグラフは成績,年収等のデータで多々見られます.

このような綺麗に左に歪んだグラフの場合,代表値の関係は

左に歪んだグラフ2

Mean(平均値) $>$ Median(中央値) $>$ Mode(最頻値)

となる特徴があります.

※ 辞書式順になってますね.

中央値

中央値は今後四分位数等でも必要な基本概念なので慣れる必要があります.

データを小さい順に並べて2つに分けたときに,値が小さい方のデータを下位のデータ(lower half),値が大きい方のデータを上位のデータ(upper half)といいます.データの個数の偶奇によって以下のようになります.

中央値

データを左から小さい順に並べる.中央値は以下の場合で異なる.

データの個数が偶数個のとき:下位のデータの最大値と上位のデータの最小値の平均

偶数個のとき

データの個数が奇数個のとき:真ん中の値

奇数個のとき

※ この場合中央値は下位,上位どちらのデータにも属しません.


中央値は真ん中の値しか使わないので情報量は少ないですが,外れ値に強いという特性があります.

例題と練習問題

例題

例題

次のデータはあるベンチャー企業の年収(万円)のデータを小さい順に並べたものである.

$200$,$300$,$300$,$300$,$400$,$400$,$600$,$1500$

(1) 平均値を求めよ.

(2) 中央値を求めよ.

(3) 最頻値を求めよ.


講義

(2)では今回はデータが8個(偶数個)なので,下位のデータの最大値と上位のデータの最小値の平均をとります.


解答

(1)

 $\dfrac{200+300+\cdots+1500}{8}=\dfrac{4000}{8}=\boldsymbol{500}$


(2)

 $\dfrac{300+400}{2}=\boldsymbol{350}$


(3)

 $\boldsymbol{300}$

※ このように外れ値がある(平均年収以下が沢山!)と平均値が代表値として適しているとはいえないと思います.

練習問題

練習

次のデータはあるクラスの漢字テストの $20$ 人の結果である.

得点 $0$ $1$ $2$ $3$ $4$ $5$
人数 $2$ $1$ $a$ $b$ $6$ $1$

(1) $a+b$ の値を求めよ.

(2) 平均値が $2.5$ 点のとき,$(a,b)$ を求めよ.

(3) 中央値が $2.5$ 点のとき,$(a,b)$ を求めよ.

(4) 中央値が $2$ 点のとき,$(a,b)$ を求めよ.

(5) 最頻値が $4$ 点のとき,$(a,b)$ を求めよ.

解答

(1)

人数の合計に関して

$a+b+10=20$ $\therefore \ \boldsymbol{a+b=10}$


(2)

合計点に関して

$2a+3b+30=2.5\times 20$ $\therefore \ 2a+3b=20$

(1)の結果と連立すると

$\boldsymbol{(a,b)=(10,0)}$


(3)

中央値が $2.5$ 点のとき,$2$ 点まで下位のデータで,$3$ 点からが上位のデータであればいい.

$\boldsymbol{(a,b)=(7,3)}$


(4)

中央値が $2$ 点のとき,下位と上位のデータに $2$ があればいい.つまり $a\geqq 8$.

$\boldsymbol{(a,b)=(8,2),(9,1),(10,0)}$


(5)

最頻値が $4$ 点のとき,$a\leqq 6$ かつ $b\leqq 6$ であればいい.

$\boldsymbol{(a,b)=(4,6),(5,5),(6,4)}$