「ヒストグラムの最頻値って何?」
「どうやって求めるの?」
「最頻値を求めて何が分かるの?」
このような悩みをお持ちではありませんか?
本記事を読むと、最頻値の意味や求め方を理解することができます。
さらに、どのようなヒストグラムであろうと、最頻値を瞬時に導くことができます。
最頻値とは?
最頻値=「最も頻繁に出現する値」のことです。
言い換えると、最もよく観測されたデータのことを指します。
また、最頻値は英語で「モード(mode)」と呼ばれます。
どちらも同じ意味ですので、教科書に「モード」と書かれていた場合は、頭の中で「最頻値」に変換してください。
ここで、最頻値の例を見てみましょう。
次のように 5 つのデータがあるとき、最頻値は何か分かりますでしょうか?
2, 3, 4, 3, 1
最頻値は最も数が多い値のことを指しますので、答えは 3 になります。
数が多い値を探すだけですので、簡単に求められますね。
ヒストグラムの最頻値の求め方
ヒストグラムでは、図の位置が最頻値になります。
ヒストグラムの縦軸はデータの数を表しているため、最も数が多い値が最頻値となります。
しかし、「分かった!」と早とちりしないでください。
ヒストグラムをよく見てみると、最も数が多い値は、「40 ≦ x < 50」と書かれています。
40~50のうち、どの値の数が最も多いか分かりません。
ヒストグラムのデータは「40 ≦ x < 50」のように幅を持っています。
最頻値を求めるときには、中央の値 45 を使う、という決まりがあります。
区間の真ん中の値のことを「階級値」と呼び、最頻値は階級値を使います。
ヒストグラムで使われる用語については、以下の記事で詳しく解説しています。
ヒストグラムの最頻値を求めるメリット
最頻値を求めると便利なのが、下図のように分布が偏っている場合です。
「図の分布を的確に表す値は何か?」と考えれば、最頻値を使うのが良いです。
参考までに、分布の平均値と最頻値を比べた結果を下図に示します。
図を見ると、平均値よりも最頻値の方が、グラフの代表的な値として良いことが分かります。
この例のように、分布に偏りがある場合に最頻値が役に立ちます。
まとめ
本記事では、ヒストグラムの最頻値の求め方について解説しました。
最頻値=「最も頻繁に出現する値」
のことであり、ヒストグラムの最頻値を求めるときには、区間の真ん中の値(階級値)を使います。
最も数が多い値は、ヒストグラムを見ると一瞬で分かるので、計算しなくても良いです。
テストで「最頻値を求めよ」という問題が出てきたらラッキーですね。