分布の王様、正規分布はなぜ自然界に多く見られるか

2020年6月29日

こんにちは、ごんごんです。

本日は、分布の王様とも言われる「正規分布」について執筆します。
統計の教科書でも「正規分布は自然界によく見られ~」などと書かれることが多いですが、そもそもなぜ自然界によく見られるのかという点を説明していきます。

正規分布とは何か

正規分布は左右対称の連続分布の1つで、平均を中心とした釣鐘型の曲線で表されます。
下のグラフは平均が0、標準偏差が1の正規分布(標準正規分布)です。

標準正規分布のグラフ
平均0、標準偏差1の正規分布

例えば、日本の高校生(17歳)を対象とした文部科学省の調査では、身長の分布が下のグラフのように釣鐘型となっています。
男女で平均や標準偏差(ばらつき)は異なるものの、正規分布に従っているというのがビジュアル的にもわかると思います。
平均身長は男性が170cm、女性が160cm弱といったところでしょうか。

日本の高校生(17歳)の男女別身長分布
(出所)文部科学省「平成28年度 学校保健統計調査全国表」

正規分布であれば範囲の予測がしやすい

正規分布に従っていることがわかれば、取りうる値の範囲を予測することが容易にできます。
正規分布においては、平均から±1標準偏差の区間(1シグマ区間)で全体の約68%をカバーすることがわかっています。
±2標準偏差の区間(2シグマ区間)ならば約95%、±3標準偏差区間(3シグマ区間)では99.7%が属しています。
下記は先程の平均が0、標準偏差が1の標準正規分布でのイメージをわかりやすくグラフで表現したものです。

正規分布のシグマ区間

高校生の身長の分布が正規分布に従っていることは前述しましたが、男性の平均は170.7、標準偏差は5.8です。
この場合、1標準偏差区間である164.9~176.5の身長の人が63%であることがわかります。
3標準偏差区間である153.3~188.1の範囲には99.7%の人が属すことになります。

こうした知識があれば、ベッドや扉の高さを決めるといった場合に極端に大きいものや小さいものを設計するというようなムダを省くことができますね。

正規分布はなぜ自然界によく見られるのか

本題の正規分布はなぜ自然界に多く見られるのかということを説明します。
自然界の事象は、偶然の積み重ねの結果であると仮定してみると二項分布で表現ができます。

二項分布とは、結果が成功、失敗などの2通りある試行を複数回行った場合の成功回数を確率変数とする分布です。
例えばコインを10枚投げた場合、表が出た枚数は試行回数10の二項分布に従っていると言えます。
下のグラフの通り、表が5枚出る確率が最も高く、両端に近づくほど確率が低くなっています。

コインを10回投げた場合の表の枚数分布

二項分布は離散分布なので、10回の試行ではデコボコしていますがなんとなく正規分布の面影を感じ取ることができるかと思います。
試行回数を100回に増やしてみると一層、正規分布に近づくことがわかります。

コインを100回投げた場合の表の枚数分布

自然界では、様々な局面でコインが投げられた結果(偶然の事象の積み重ね)として事象が現出しているとも考えられます。
例えば、テストの結果を表す偏差値も正規分布を前提にしていますが、父の遺伝:✖、母の遺伝:○、小学校の環境○、など数多くの要因を加味して、テストの成績(偏差値)があるのです。

上では、二項分布を使って説明しましたが、中心極限定理という定理で「任意の分布から値を十分な数取り出すと、その平均(合計)は正規分布になる」と数学的に証明されています。
種々の要因が無作為に加算されるような過程を加算過程といいますが、ある量が加算過程の影響を受けている場合は正規分布に従うということです。
あらゆる分布(左に偏った分布、右裾に長い分布、離散的な分布などどんな分布)でも平均は正規分布に従うという非常に強力な定理です。

任意の分布から値を取り出してその平均が正規分布に従うということは、様々な独立な要因の結果である自然事象の多くが正規分布に従うというのも納得ですね。

まとめ

この記事では、分布の王様と呼ばれる正規分布の簡単な性質と、自然界に多く見られる理由を概説しました。
下記にまとめを書いておきます。

・正規分布は左右対称な釣鐘型の連続分布
・正規分布は平均から1標準偏差の区間に63%が収まる。2標準偏差では95%、3標準偏差では99.7%をカバーする
・任意の分布から値をいくつか取り出すと平均は正規分布に従う。つまり、偶然の積み重ねの結果である自然界の事象は正規分布に従う例が多い