✔ 学習ポイント
代表値は「平均値、中央値、最頻値」で、データ全体の特徴を1つの値で要約します。
平均値は全ての合計を個数で割りますが、外れ値が存在すると、その影響で値が歪みやすいです。
一方、データを大きさ順に並べたときの、中央の値を指す中央値と、最も頻繁に出現する値を指す最頻値は、どちらも外れ値の影響を受けにくい(抵抗性が高い)特徴があります。
11個のデータ群 [2, 2, 3, 4, 6, 7, 8, 8, 8, 9, 9] の中央値と最頻値をそれぞれ求めてください。
中央値は「7」、最頻値は「8」です。
中央値は「データ種類の中央の値」ではなく、「データ個数の中央の値」であることに注意が必要です。今回は、11個のデータがあるので、前から6個目の値が中央値となります。データの値の種類は[2, 3, 4, 6, 7, 8, 9]の7種類ですが、その中央の値(4個目)である「6」は中央値ではありません。外れ値とはどのようなデータか説明してください。また、代表値の中で、外れ値の影響を最も受けやすいのはどれか、理由を含めて説明してください。
外れ値とは、集団にある大多数のデータの値から著しく離れた値のことです。
外れ値の影響を最も受けやすいのは「平均値」です。平均値は、全てのデータを合計してから計算されるため、極端な外れ値が一つ存在するだけで、その値に強く引っ張られてしまいます。中央値や最頻値はデータの順番や頻度で決まるため、外れ値の影響はほとんど受けません。
クリック/タップで表示(記事末尾にも設置)
データの傾向を表す代表値
代表値は「平均値・中央値・最頻値」のことで、1つの値でデータ全体の特徴を要約することができます。
3つの代表値にはそれぞれ特徴があり、データの特徴に応じて使い分ける必要があります。「平均値・中央値・最頻値」の特徴や、使用を避けるべきデータを理解しておくことで、結果を適切に解釈をすることが可能です。
それぞれの代表値について、詳しく見ていきましょう。
平均値
「平均値」とは「全てのデータを合計し、データの個数で割った値」を指します。
例えば、10個のデータ[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]があった場合、計算式は「(1+2+3+4+5+6+7+8+9+10)÷10=5.5」となります。

平均値は日常生活においてよく利用される代表値のため、耳にする機会も多いのではないでしょうか。気温や年収、価格、寿命、得点など、例を挙げるときりがないですね。
「外れ値」の影響を受けやすい平均値
平均値の特徴として、「外れ値」の影響を受けやすいことがあげられます。外れ値とは、集団にある大多数のデータの値から著しく離れた値のことを指します。
大多数のデータより逸脱して、高い外れ値があると平均値は押し上げられ、低い外れ値があると平均値は押し下げられることになります。

平均値は感覚的に理解しやすく、日常の様々な場面で用いられています。ただその一方で、外れ値の存在を無視してしまうと集団の実態を誤って捉えてしまう可能性が潜んでいるのです。
日本の平均年収からみる外れ値の影響
例えば、日本の平均年収を例に考えてみましょう。日本の大多数の人の年収を知ることを目的にする場合、平均値(平均年収)は適していると言えるでしょうか。
国税庁の調査によると、2023年の日本の平均年収は460万円(国税庁, 令和5年分 民間給与実態統計調査)でした。
しかし、同データの平均年収の階級別の構成比を見ると、年収400万円以下の人の割合が50%を超えています(下記参考)。これは過半数の人たちが、平均年収より低い年収であることを示しています。
- 100万円以下:8.1%
- 100万円超 200万円以下:12.3%
- 200万円超 300万円以下:14.0%
- 300万円超 400万円以下:16.3%
- 400万円超 500万円以下:15.4%
- 500万円超 600万円以下:10.8%
- 600万円超:23.1%
つまり、平均年収460万円という値は、日本の年収における実態を適切に表しているとは言い難いです。全く参考にならない値とは言えないまでも、実態よりもやや高く算出されていると考えるのが妥当でしょう。
年収が実態よりも高く算出されてしまう原因は、年収1,000万円を超えるような、高所得層が平均年収を押し上げているためです。年収が数千万円、数十億円といったごく少数の人々の収入が外れ値として、統計全体の平均値を大きく引き上げています。その結果、平均年収が人々の実態から大きく離れてしまうことが起こり得るのです。
目的に沿った正しい解釈ができるよう、平均値を利用する際は外れ値の存在に留意しておくことが必要です。
ヒストグラムで外れ値を見つける
平均値の値を歪ませてしまう外れ値ですが、ヒストグラムを利用することで視覚的に発見することができます。
ヒストグラムとは、データをいくつかの階級にわけ、各階級に含まれる度数(頻度)を表すグラフのことです。

度数分布表をグラフにプロットするだけで外れ値の存在を確認できるため、平均値への影響を簡単に検討することができます。
また、見つけた外れ値を事前に統計処理の対象から除外しておくことで、実態に近い平均値を算出することも可能です(調整平均、トリム平均など)。
例えば、フィギュアスケートは複数の審査員による評価で技の得点が決定しますが、最高得点と最低得点を除外した平均値が得点となります。これは、高すぎる得点、低すぎる得点の影響を減らすための仕組みとして確立しています。
このように、外れ値の存在を事前に明らかにしておくことは、平均値の算出方法や捉え方の適正化に繋がります。
中央値
「中央値」とは「データを大きさ順に並べたとき、ちょうど真ん中にくるデータの値」を指します。データ数が偶数のときは、真ん中の2つの値の平均を中央値とします。
例えば、9個のデータ[10, 13, 18, 20, 25, 29, 30, 150, 200]があった場合、5番目の値である「25」が中央値となります。

「外れ値」に強い中央値
中央値は、先ほどみた平均値とは異なり、外れ値の影響を受けにくいことで知られています。このことを「抵抗性が高い」とも言います。
例えば、先ほどの9個のデータ[10, 13, 18, 20, 25, 29, 30, 150, 200]における中央値は「25」でしたが、平均値は「55」になります。[150, 200]という外れ値があるだけで、中央値と平均値の間に2倍以上の差が生じていることが分かりますね。
平均値は、すべてのデータの値を合計して計算するため、外れ値が存在すると、その値に引っ張られて大きく変動してしまいます。
一方、中央値は、データを大きさ順に並べたときの順番だけで決まります。データが極端に大きくても小さくても、その値が「何番目か」という位置が変わらなければ、中央値は変わりません。そのため、外れ値の影響をほとんど受けないのです。
ちなみに、先ほどの国税庁の調査と、厚生労働省の別調査をもとにした、日本の年収の中央値は351万円と算出されるようです(参考:MUFG, 日本の平均年収は?中央値や年齢別・男女別・職種別の平均年収も徹底解説!)。平均年収の値と比べて、中央値では大幅に引き下がっています。
最頻値
「最頻値」とは「ある値に当てはまるデータの個数が最も多い値」を指します。個数が最も多い値が複数あるときは、いずれも最頻値となります。
例えば、10個のデータ[1, 1, 2, 3, 3, 3, 6, 6, 7, 10]があった場合、データの個数が最も多い「3」が最頻値となります。

ちなみに、得られたデータの全体数が少ないと、最頻値の結果が不安定になります。そのため実際の場面において、データが10個しかないのであれば、最頻値の採用は推奨されません。
最頻値における単峰性と多峰性
最頻値は「単峰性」の分布のデータで適切に利用することが可能です。
単峰性とは、最頻値が1つに定まるデータ分布のことを指します。
下記の図のように、単鋒性の分布で、その分布が左右対称の場合、「平均値・中央値・最頻値」の値はすべて一致します。
一方、多峰性とは、最頻値が2つ以上あるデータ分布のことを指します。
最頻値の定義で「個数が最も多い値が複数ある場合はいずれも最頻値とする」と示しましたが、実は多峰性のデータの場合、最頻値の使用は適切ではありません。というのも、もし最頻値が2つ以上あると、データ全体を1つの値で要約するという代表値の役割がそもそも果たせないためです。
「外れ値」に強い最頻値
最頻値も、中央値と同じく、外れ値の影響を受けにくい代表値です。
例えば、先ほどの10個のデータ[1, 1, 2, 3, 3, 3, 6, 6, 7, 10]に、[100]が加わったとしても、最頻値は「3」から変わりありません。
代表値はデータに応じて使わけることが大切
平均値、中央値、最頻値という3つの代表値は、それぞれが異なる特性を持っていました。そのため、データの性質や分析の目的に応じて使い分けることが必要不可欠です。
平均値は日常的に利用しやすい値ですが、外れ値に弱く、一部の極端な値に引っ張られやすいことに注意する必要があります。一方、中央値はデータの位置、最頻値はデータの頻度に着目しており、どちらも外れ値の影響を受けにくいのが利点でした。
データの傾向を正しく読み取るためには、一つの代表値だけに頼るのではなく、複数の代表値を比較したり、ヒストグラムや箱ひげ図のようなグラフを併用したりすることも重要です。これにより、データの中心的な傾向だけでなく、そのばらつきや偏りといった全体像を正確に把握し、より適切な判断を下すことができるようになります。
問題
11個のデータ群 [2, 2, 3, 4, 6, 7, 8, 8, 8, 9, 9] の中央値と最頻値をそれぞれ求めてください。
中央値は「7」、最頻値は「8」です。
中央値は「データ種類の中央の値」ではなく、「データ個数の中央の値」であることに注意が必要です。今回は、11個のデータがあるので、前から6個目の値が中央値となります。データの値の種類は[2, 3, 4, 6, 7, 8, 9]の7種類ですが、その中央の値(4個目)である「6」は中央値ではありません。外れ値とはどのようなデータか説明してください。また、代表値の中で、外れ値の影響を最も受けやすいのはどれか、理由を含めて説明してください。
外れ値とは、集団にある大多数のデータの値から著しく離れた値のことです。
外れ値の影響を最も受けやすいのは「平均値」です。平均値は、全てのデータを合計してから計算されるため、極端な外れ値が一つ存在するだけで、その値に強く引っ張られてしまいます。中央値や最頻値はデータの順番や頻度で決まるため、外れ値の影響はほとんど受けません。
クリック/タップで解答表示
記事をお気に入りに追加






