統計の基本的な考え方を速習する by今日から使える統計解析 理論の基礎と実用の”勘どころ”

2020年3月18日

こんにちは、ごんごんです。
今回は「今日から使える統計解析 理論の基礎と実用の”勘どころ”」という本を紹介します。

この本では、正規分布がなぜ重要なのか検定(正規分布、t、F、χ二乗)、区間推定や回帰分析などの統計の基本を難しい数式なしに理解できます。
また、非常にわかりやすく、丁寧な語り口なのでいわゆる教科書的な硬さはなく、初心者にオススメの内容です。

アクチュアリー数学についての記事を先日書きましたが、統計が全くわからないという人は本書を一度読んでみてください。

以下は私が読んでみて、はっと気づいた点を備忘までに書き記します。(要約ではありません)

統計とはどのような学問か?

「統計とはなんですか?」と聞かれたら、みなさんはどのように答えますか。
わかるようでわかりにくいですよね、私も少し考えましたがはっきりした言葉で表すって難しいです。

本書では、「数値の集団から、その集団についてのどのような情報が引き出せるかを研究する数学」とあり、非常に明解です。

正規分布は、なぜ分布の王様なのか?

正規分布は英語で normal distribution といいます。
ノーマルとはすなわち「普通」というような意味ですから、分布の王様と言ってもいいでしょう。

統計の教科書では、正規分布は自然界によくみられるという記述があります。
なんで正規分布が自然界に多いのかよくわかりませんでしたが、本書は下記のような説明をしています。

人の身長や運動能力をはじめ、ほとんどの自然現象や社会現象は、たくさんの要因によって右へ行ったり左へ行ったりしながら作り出されていますから、結果的に正規分布になることが多いのも、納得がいきます。

大村平「今日から使える統計解析 普及版 理論の基礎と実用の”勘どころ” 」

これも非常にストンと納得しました。
学力でいうと、例えば父の遺伝は〇、保育所の環境は〇、育った実家の環境は×といった具合に、様々な要因が絡み合って、結果として正規分布が表れるのです。

また、3σ(シグマ)がは0.3%の確率でしか起こらない、「千3つ」という表現も印象に残りました。
3σは偏差値で表すと80ですね。(下だと20です)

サンプルを増やすと誤差は減る

試行を重ねていくと、どんどん誤差が減っていき、推定の精度が高くなるのは少しでも統計を学んだことがある人は知っているでしょう。
試行の回数をnとすると誤差は(1/√n)になります。
これは、試行回数を100倍にすれば誤差は1/10になるということです。

上のことは、私も知っていましたが非常に分かりやすい具体例が出てきました。
「長さがL1、L2のブロックがあり、正確にそれぞれの長さを測りたい場合どうすればいいか」

2つのブロックの長さ、L1とL2を正確に測るにはどうしたらよいか。

普通に考えると、L1のブロックを定規などで測って、L2も同様に測りますよね。
しかし、下図のように長さの和Rと差rを測ることで誤差が小さくなります

長さの和Rと、差rを計測した方が誤差が小さくなる

Rとrが求まれば、L1とL2が求まります。
注目すべきはRとrの測定ではL1とL2はそれぞれ2回ずつ登場していますから、それぞれを単体で測るよりもサンプル数が2倍に増えていることになります。
つまり、誤差は(1/√2)倍になるのです。

サンプルが増えると誤差が小さくなるのは知っていますが、この例を見て「へぇ~」となりました。

あわて者の誤りとぼんやり者の誤り

統計で出てくる第1種の誤り、第2種の誤りがよくどちらかわからなくなりませんか?
本書では第1種の誤りを「あわて者の誤り」、第2種の誤りを「ぼんやり者の誤り」と呼んでいます。

第1種の誤りに相当するのは、本当は差がないのに差があると判断してしまう場合であり、確かに「あわて者」です。
同様に、第2種の誤りは判断材料は十分あったかもしれないのに石橋をたたきすぎて判断をしない「ぼんやり者」です。

こうした呼び方は非常にイメージしやすいと思いました。
また、あわて者(αwatemono)、ぼんやり者(βonyarimono)ということでαとβが対応しているというところで、2度うなずいてしまいました。

まとめ

私の気づいたことを記載していきましたが、おそらく統計の教科書に出てこない、すっと理解できるような事例もあったのではないでしょうか。
統計は全く分からないという人や、アクチュアリーで数学を受ける統計初心者の方は本書を読むことで全体感がつかめるのではないでしょうか。
ぜひ、手に取ってみてくださいね。