正規分布の導出の概略

確率分布

はじめに

統計学では最もよく使われる正規分布。

重要であることは間違いないですが、一方で「なぜ確率密度関数が複雑な形になるのか分からない」、「なぜ正規分布がよく使われるのか分からない」といった悩みを抱えてしまうことも多々あると思います。

筆者も正規分布を勉強し始めた当初は上記のような疑問をずっと持っていました。

本記事では、筆者と同じような疑問を持っている方へ向けて、これらの疑問を解いていきたいと思います。

正規分布とは

正規分布は式で見るよりも、次のようなグラフでイメージしている方が多いと思います。

正規分布の形状の特徴は、

(1)平均\(\mu\)、分散\(\sigma^2\)で完全に分布の形状が決定されること
(2)平均\(\mu\)に対して線対称であること

です。見た目の美しさに反して確率密度関数は複雑で、

$$f(x)=\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$

この式自体は教科書に載っているので覚える必要はありません。

式を見ると、\(\mu\)と\(\sigma\)の値を決定すれば分布の形状が決定されることが分かります。

この式の重要なポイントは、\(\exp(-x^2)\)の形で表されるということです。
expの前の係数は規格化定数(全区間の積分の値が1になるように調整するための定数)で、\((x-\mu)^2\)は平均\(\mu\)で左右対称となるように平行移動させるための式です。

さて、正規分布の導入をしたところで、この複雑な式がどこから出てきたのかということを説明します。

正規分布の導出のポイント

正規分布の導出方法は複数あり、二項分布の極限として導く方法や、誤差関数として導く方法(下記で説明します)などがあります。

最もよく知られているのが誤差の一般的な性質から導かれた方法です。
この方法で導出を行ったのがガウスなので、「正規分布」のことを「ガウス分布」と呼ぶこともあります。

ほとんどの統計学の教科書には、ガウスがどのようにして正規分布を導いたのか書かれていませんが、様々な資料を調べた結果、文献[1](文末に記載)に分かりやすい説明がされていました。

本記事の以下の説明は、文献[1]の内容をポイントを絞って解説したものです。引用部分には””(ダブルクォーテーション)をつけています。


真の値\(X\)を求めるために n 回の測定をして測定値\(x_1,…,x_n\)が得られたとします。
測定には必ず誤差が含まれますので、i 回目の測定誤差\(e_i\)を次のように考えます。
$$e_i=X-x_i$$
つまり、真の値(これは未知と考えます)と測定値の差が誤差になるということです。
n 回の測定誤差が独立に生じたと考えられるとき、

“測定値\(x_1,x_2,x_3,…,x_n\)が得られる確率は
$$f(x_1-X)f(x_2-X)f(x_3-X)…f(x_n-X)$$
に比例します。”

これだけでは計算を先に進めることができませんので、大胆な仮定を置きます。それは、

“観測値が最大確率のものとして実現したという仮定”

です。これは最尤(さいゆう)原理と呼ばれ、統計学の様々な場面で登場する考え方です。
確率が最大となるということは、上の\(f(x_1-X)…f(x_n-X)\)を微分するとゼロになるということです。

これ以降は、誤差の総和はゼロと仮定した上で計算を実行していくと、\(\exp(-x^2)\)の形の関数が出てきます。

計算過程が気になる方は文献[1]をご参照ください。(微分方程式に関する簡単な知識が必要です)


以上、非常に簡単ではありますが、正規分布の導出のポイントを説明しました。

この導出方法は「測定」という一般的なものに対して確率分布を求めた点が画期的でした。
そのため、現在でも実験等の測定時には正規分布がよく使われます。

しかし、あらゆる測定に安易に正規分布を当てはめることは危険です。
その理由は、上記の導出部分でも述べている通り、測定誤差が持つ性質として、

・各回の測定誤差は独立であること
・n 回の測定誤差の総和がゼロであること

を仮定しているからです。
例えば、「毎回同じ作業者が測定を行って作業に習熟して誤差が小さくなった」「測定順序をランダムにせずに外気温の影響を受けてしまった」といった場合には、正規分布を仮定して良いのかを吟味する必要があります。

そのような影響を考える上でも、正規分布の成り立ちを知っておくことは意味があると思います。

おわりに

本記事では、正規分布とは何かということと、その成り立ちについて説明しました。
正規分布は測定の分野にのみ威力を発揮するのではなく、中心極限定理という定理があるおかげで、統計学の他の分野でもよく使われます。

正規分布には成り立ち以外にも重要な性質が多くありますので、本ブログでも紹介していきます。

参考文献
[1]松原望,人間と社会を変えた9つの確率・統計学物語,SBクリエイティブ

タイトルとURLをコピーしました