今回は、平均値、中央値、最頻値のメリット・デメリットについて解説します。

平均値、中央値、最頻値って何?
という方には、この記事で解説しているので、参考にしてください。
平均値、中央値、最頻値は別の値をとる
代表値には「平均値」「中央値」「最頻値」の3種類があります。
この3つは、多くの場合別の値をとります。
次のデータを考える。
1,2,2,3,4,5,5,5,6
平均値は
1+2+2+3+4+5+5+5+69=3.66⋯
中央値は
ど真ん中の4
最頻値は
一番数の多い5
平均値3.666 中央値4 最頻値5
というように値が異なります。
そのため、データを分析、活用する際どの代表値を使うのか選択しなくてはなりません。
「平均値」「中央値」「最頻値」それぞれの特徴を理解する必要があるわけです。
それではみていきましょう。
平均値
一番よく使われるのが、「平均値」です。
例えば、テストにおいて気にするのは、平均点が何点だったかです。
平均値は
(平均値)=データの値の合計全体の度数
で求めるため、全てのデータの値を考慮することができる。おおよそデータの真ん中の値になると思われています。
テストの平均点を知ることによって、集団の中で、自分の位置をおおよそ把握することができます。
全ての値を考慮して、おおよそ全体の真ん中の値を示すことが多い
しかし、平均値にもデメリットがあります。
それは、集団の中に大きく外れた値(外れ値)がある場合、平均値が集団の傾向とは大きくずれてしまうことがあるということです。
例えば、以下の状況において、
得点102030405060人数5671061
平均点は、32点です。
ここに大変優秀な転校生がきて、このテストを受けたところ1400点であったとします。
得点102030405060⋯1400人数5671061⋯1
平均点は、70点です。

平均点爆上げです。
この場合、転校生の得点によって、平均点が大きく跳ね上がり、転校生以外は、平均点より低い得点の状態となってしまいます。この平均点は集団の傾向とは言えない状態です。
外れ値の影響を大きく受けるため、集団の傾向とずれることがある
中央値
中央値は、データを純倍に並べたときに、真ん中にくる値です。
この中央値の求め方ならば、先ほどの「平均値は外れ値の影響を大きく受けてしまう」という問題を、解消することができます。
先程のテストの例を見ると
得点102030405060人数5671061
平均値は32、中央値は30
得点102030405060⋯1400人数5671061⋯1
平均値は70、中央値は35

中央値は、外れ値の影響を受けていないことがわかりますね。
平均値は外れ値の影響を受けるが、中央値は外れ値の影響を受けにくいという特徴があります。
外れ値の影響を受けにくい
年収の話でも、よくこの平均値と中央値の話になります。
令和元年度の男性の年収の平均値は540万、中央値は425万だそうです。

平均540万って、、、高いな、、、。
(以下の記事を参考にしました。)

平均値と中央値の間に、100万円以上の差があります。
これは、一部の年収の高い富裕層の方が、平均を大きく引き上げているわけです。
平均年収が一般の方の感覚とはズレがある理由はここにあります。
中央値を見た方が、一般の感覚と近いのではないでしょうか。
最頻値
最後に最頻値を見ていきます。これは、最も頻度が高く表われる値です。
最頻値は、商品のサイズの売れ行きなどを分析する際に有効な値です。
例えば、以下のカーテンのサイズの売り上げの状況を考えます。
サイズ(丈)110180140178200個数51422212
この最頻値は178となります。
最頻値を参考にして、丈のサイズ178の仕入れを強化するのが有効というわけです。
平均値、中央値、最頻値どれが代表地として相応しいか
平均値、中央値、最頻値にはそれぞれ特徴があります。
データの状況によって、どの代表値を用いるべきかは変わってきます。
それぞれの代表値の特徴を理解した上で、どの代表値を使うか判断する必要があるわけです。

特徴を知っておくことは大切ですね。
まとめ
・平均値・・・全ての値を反映させることができる。一番よく使われる代表値。外れ値の影響を受けることに注意が必要。
・中央値・・・小さい順に並べたど真ん中の値。外れ値の影響を受けづらい。
・最頻値・・・最も頻繁に表われる値。商品の売り上げなどの分析の際に有効である。
・平均値、中央値、最頻値の特徴を理解し、データの様子によって、どの代表値が相応しいか考えることが大切。
以上で、平均値、中央値、最頻値についての解説は以上です。
少しでも参考になれば幸いです。
コメント