「あえて断言しよう。あらゆる学問の中で統計学が最強の学問であると。」by 統計学が最強の学問である

2020年4月4日

こんにちは、ごんごんです。

あえて断言しよう。あらゆる学問の中で統計学が最強の学問であると。
表紙の裏にこんな煽り文が書いてある、この本の名前は「統計学が最強の学問である」です。

統計の入門書として名高いこの本はシリーズ累計50万部突破のメガヒットを記録。
まさしく統計入門書の金字塔と呼ぶにふさわしいでしょう。
遅ればせながら、この度読んだので印象に残った箇所を中心にレビューしていきます。

なぜ統計学が最強の学問なの?

タイトルや煽り文でこれでもかというくらい「統計学」が最強とうたっていますが、「統計学はどの分野においても、データを集めて分析することで最速・最善の答えを出すことができる」というのがその理由です。

よくテレビでもコメンテーターが「私の経験によると~」、「自分の感覚では~」と好き勝手言っていますが、主観的な意見というのは科学の世界では相手にされません
客観的なデータに基づいて意思決定はすべきですし、自身の経験や感覚はマーフィーの法則(急いでいるときに限って赤信号になるなど)のように認知バイアスがかかっている可能性が否定できません。

ちなみに上記で科学の世界では相手にされませんと書きましたが、本来はビジネスでも客観的なデータを用いるべきです。
私が勤めている一部上場企業でも、よく「経験おじさん」や、「感覚おばさん」がいて困ります。
そういう人に限ってデータに基づいた決定ができないから、経験で物を語り、最終的に精神論に走りがちです。

特にこのブログで扱っている「教育」という分野においてはその傾向が顕著です。
この本では教育分野において、下記のような痛快な表現をしています。

不思議なもので、教育という分野に関しては全くと言っていいほど悩の素人でも自分の意見を述べたがるという現象がしばしばおこる。(中略)
だが、どのような教育がいいか、という問いへの回答は、教育される本人の特性や能力、環境などさまざまな要因によって左右されるし、医療と同様に不確実性の大きい分野でもある。
自分が病気になったときに、まず長生きしているだけの老人に長寿の秘訣を聞きに行く人はいないのに、子どもの成績に悩む親が、子どもを全員東大に入れた老婆の体験記を買う、という現象が起こるのは奇妙な事態だとは思わないだろうか。

西内啓「統計学が最強の学問である」(ダイヤモンド社)

日本に生まれた人は、ほぼ100%教育を受けてきているので自分の経験を語りがちです。(私もそうです笑)
しかし、教育の分野でもエビデンス(データ)に基づいた施策を行おうという機運が近年高まっています。
こうした分野は「教育経済学」と呼ばれ、下記の記事で説明しています。

ビッグデータの幻想

ここ数年でよく聞くようになった「ビッグデータ」という単語。
私の会社の周りでも、「大量のデータがあるから、分析してなんかいい結果がでないか?」みたいな話をよく聞きます。

しかしながら、本書では、ビッグデータを解析することがどれだけの価値を生むのか投資コストに見合うだけの便益が得られるのか、と問いかけます。

例えば、10万人の顧客データを保有している会社があり、その男女比を求めようとしているとします。
全てのデータ(10万人分)の解析には時間がかかるため、一部のみを抽出(サンプリング)して男女比を推定したとしましょう。
サンプリング数に応じた女性の割合の95%信頼区間(この区間でほぼ間違いないだろうという範囲)は以下のようになります。

  • 100人をサンプリングして女性が70%の場合→女性の割合は61~79%だろう(標準誤差4.6%)
  • 1,000人をサンプリングして女性が70%の場合→女性の割合は67~73%だろう(標準誤差1.4%)
  • 10,000人をサンプリングして女性が70%の場合→女性の割合は69~71%だろう(標準誤差0.46%)

これはサンプル数の√に反比例して、誤差が小さくなっていくことによります。
つまり、誤差を半分にしたいならさらに4倍のサンプルを集める必要があります。
果たして、10,000人の時点で69~71%という結果がわかっているのに、さらに10倍である10万人の全数調査を行う必要があるのでしょうか。たいていはその必要はないでしょう。
(ちなみに10万人の調査を行うと、サンプル数は1万人の10倍になるので誤差は1/√10(=0.32)倍になります。)

ランダム化比較実験、最強説

本書では、人間の制御しうる何物についても、その因果関係が分析できる強力な実験方法として「ランダム化比較実験」を紹介しています。

よく聞く言説として、下記のようなものがあります。
「少年犯罪は暴力的なゲームが引き金だ。なぜなら、少年犯罪率と暴力的なゲームプレイ時間の相関は高いからである。したがって、暴力的なゲームは規制しなければいけない。」

上記の主張は、一見もっともらしいように思えますが、相関関係と因果関係を混同しています。
相関関係がある場合には、おおまかに下記の4つのパターンが考えられ、上の少年犯罪率と暴力的なゲームで説明します。

  • 因果関係がある場合:暴力的なゲームのプレイ時間が増えると少年犯罪率が上昇する
  • 逆の因果関係がある場合:少年犯罪率が上昇すると、暴力的なゲームのプレイ時間が増える
  • 第3の要因(交絡要因)がある場合:例えば家庭環境が劣悪になるにつれて、少年犯罪率上昇と暴力的なゲームのプレイ時間増加につながる。
  • 偶然:たまたまデータが相関関係を示しただけ。

断片的なデータでは上記の4つのどれに当てはまるかわかりません。
そこでランダム化比較実験では、次のような実験を通じて因果関係を検証します。
ランダムに子どもを2つのグループに分け、片方には暴力的なゲームをプレイさせ、残りの一方にはプレイさせない。その後追跡調査し、グループ間で少年犯罪率を調べる
※あくまで例なので、現実ではこうした実験は倫理的に行われません。

実験の結果として、暴力的なゲームをプレイしたグループの少年犯罪率が、もう一方より(統計的に)高ければ、暴力的なゲームは少年犯罪を引き起こす原因だと結論付けることができます。

ランダム化比較実験のミソは、集団をランダムに分けることによって、性別や家庭環境や本人の暴力性といった様々な要因を両方のグループで均質化したうえで、因果関係を調べたい要因の差異を検証することができる点です。

このランダム化比較実験を最初に提唱したのは、フィッシャーという学者です。
因果関係を分析できるこのランダム化比較実験は、発表と同時に多くの科学者の賛同を集め、引用数が1位になった時期もあると言います。
現在でも米国などを中心に政策決定などにこの手法が使われています。

統計学の見通しが劇的によくなる1枚の表

基礎統計学の教科書は大きく2つに分けられる」って言われたらピンときますか?

1つ目は、t検定や、カイ二乗検定、分散分析などの分析をバラバラに紹介する教科書です。
私もこのタイプで今まで勉強をしてきましたが、個別の方法を覚えるものの、問題を解こうとするとどの分析方法を使うかわからなくなるという経験がよくあります。

2つ目はこれらの方法を広義の回帰分析として俯瞰するものです。
下表を見るのが一番イメージができると思います。

どのような分析軸(説明変数)で、どのような結果を得たい(結果変数)かが決まれば分析方法は自ずと決まるという考え方です。
この表は私にとって目から鱗で、統計の初心者にこそこの表を知ってほしいと思いました。

ベイズ派と頻度論派の対立

最後にベイズ派と頻度論派の違いについてです。
ベイズってよくわかるようで、わからないようでもやもやしていました。

頻度論派はイカサマのコインを見抜く際に表裏がそれぞれ出る確率を0.5として、p値が5%を下回る場合にイカサマだったと結論付けます。

ベイズ派は、まず何の情報もない時点で事前にイカサマのコインである確率(事前確率)を決めます
そこから実際にコインを投げてみて、得られた結果から本物の場合とイカサマの場合を想定したうえで、事前確率を考慮して条件付確率を計算します。
(書いていて伝わりにくいので下記の記事を参考ください。)

ベイズ派の何の情報もない中で事前確率を決めるというのは、個人的には非常に気持ち悪いです。
事後確率も勝手に決めた事前確率のさじ加減で変わってきます。
一方で、頻度論ではp値が5%以下になるまでコインを投げる必要があるのに対し、ベイズでは事後確率をみることで「イカサマっぽい」、「本物っぽい」というのが早い段階で推測できます
こうした事実を受けて慎重に検討する必要がある医薬品などは頻度論、迅速な決定を下す必要がある分野ではベイズ論という切り分けも非常に明解です。

この本ではこうしたベイズの考え方とそのメリットについての理解が深まりました。

まとめ

統計の入門書といいつつ、ベイズ論にも少し触れるなどとても広く、それでいて深く解説した良書だと思います。
データ分析が本職でない人は、この本の内容をマスターしていればほとんど十分なのではないでしょうか。
ビジネスマンで統計を学んでみたいという人は本書をぜひ手に取ってみてください。