[紹介]統計学が最強の学問である:西内啓(ダイヤモンド社)[要約]

  1. 統計リテラシー
  2. 第1章 なぜ統計学が最強の学問なのか?
    1. 統計学が最強の武器になるワケ
    2. 疫学の功績
    3. EBM
    4. 教育におけるエビデンス
    5. 野球にも経済学にも
    6. ITと統計学の素晴らしき結婚
    7. これからの10年で最もセクシーな職業
  3. 第2章 サンプリングが情報コストを激減させる
    1. ビッグデータ狂想曲
    2. ニューディール政策
    3. コスト
  4. 第3章 誤差と因果関係が統計学のキモである
    1. 集計だけでよかったのは19世紀まで
    2. ツッコミどころが多すぎるグラフ
    3. あるある はあてにならない
    4. p値5%以下を目指せ
    5. A/Bテスト
    6. カイ二乗検定とp値の登場
    7. 因果関係の向き
  5. 第4章 「ランダム化」という最強の武器
    1. ランダム化比較実験
    2. 科学は観察と実験からなる
    3. 誤差への三つのアプローチ
    4. 攻めのための統計学
    5. ランダム化はむずかしい
    6. ランダム化の3つの限界
  6. 第5章 ランダム化ができなかったらどうするか?
    1. スノウ以後
    2. 回帰分析
    3. 回帰分析
    4. ゴルトンの回帰分析の限界
    5. 統計学の理解のためのマトリックス
    6. 重回帰分析とロジスティック回帰
    7. オッズ比を用いるロジスティック回帰
    8. 因果の推論
  7. 第6章 統計家たちの仁義なき戦い
    1. 統計学の6つの分野
    2. 社会調査法と疫学・生物統計学
    3. 心理統計学
    4. データマイニング
    5. テキストマイニング
    6. 計量経済学と統計学
    7. 分野をまたぐ確率自体の考え方
  8. 終章 巨人の肩に立つ方法
    1. エビデンスのヒエラルキー
    2. 公開されている情報
    3. ちょっと調べてみよう
  9. 目次

統計リテラシー

これから数年間は「統計リテラシー」という言葉がはやるかもしれない。
リテラシーとはごく初歩的な能力、それこそ「読み・書き・そろばん」という基礎能力をいう。
「ITリテラシー」といった場合も同様である。
そして、「データサイエンティスト」の時代が始まる。

第1章 なぜ統計学が最強の学問なのか?

統計学が最強の武器になるワケ

どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができるからである。
例えば
判断を誤れば10万人の命が奪われる意思決定の場面において、「自分の感覚では…」「長年の経験に基づくと…」という判断で、何の根拠もなく決められているとしたら?
 ▼
「公衆衛生」「社会医学」「保健行政」の分野
19世紀のロンドン。
統計学の力を使って、万単位の人命を奪う原因に戦いを挑んだ。
原因不明の疫病を防止するための学問を「疫学」と呼ぶ。その最初の疫学研究はロンドンでコレラに対して行われた。
当時の科学者・役人が下した結論は、これらの流行に対しては、むしろ場合によっては有害ですらあった。
知性も見識もあった彼らが知恵を出したアイディアも、時間と労力の無駄であり、むしろ有害であったという皮肉な結果になっている。
 ▼
「疫学の父」ジョン・スノウの活躍
ジョン・スノウという外科医がやったことはごくシンプル
・コレラでなくなった人の家を訪ね、聞き取り調査、周囲の環境をよく観察する。
・同じような状況下でコレラにかかった人とそうでない人の違いを比べる
・仮説が得られたら大規模にデータを集め、コレラの発症・非発症と関連していると考えらえる違いについて検証
 ▼
つかっている水道会社によって発症率が違うことが判明。
解決策はシンプル
 とりあえず、しばらくは特定の水道会社の水を使うのをやめる。
30年後、ドイツの細菌学者ロベルト・コッホがコレラ菌を発見し、コレラが水中で生息することや、コレラ患者の排せつ物に含まれること、コレラ菌の存在する水を飲むことで感染することが証明された。

疫学の功績

スノウの提示した疫学の考え方は、徐々に医学にとって欠くことのできないものとなっていった。
タバコを吸えば肺がんをはじめとしたがんになるリスクが上昇することも、血圧が高ければ心臓病や脳卒中になるリスクが高まることも、今や当たり前。
 ▼
50年ほど前にアメリカのフラミンガムという田舎町で行われた大規模な疫学研究の結果が公表されるまでは、タバコが健康に悪いことなのか、血圧が高いことが悪いことなのか、様々な説があった。
 ▼
疫学研究の結果、様々な説を一気にぶっ飛ばすことになった。

EBM

現在の医学の最も重要な考え方がEBM(Evidence-Based Medicine)、つまりは「科学的根拠に基づく医療」である。
この科学的根拠のうち最も重視されるものの一つが妥当な方法によって得られた統計データとその分析結果である。
いままで、経験と権威にあふれる大御所の医師たちが続けていた治療法が全くの誤りだったという事例が少しずつ明らかになっている。
 ▼
医師の経験と勘だけでなく、データとその解析結果(エビデンス)に基づくことで判断すべきだというのが、現在医学の主流の考え方。
 ▼
EBMの考え方が広まったのは、1980年代~90年代のため、現在の臨床現場を仕切っている医師たちの多くにとっては、学生時代にほとんど習っていなかったこといなっている。
アメリカでも課題が多いということである。

教育におけるエビデンス

エビデンスの活用はほかの分野にも利用されている。
アメリカの教育学会では、エビデンスに基づいた教育方法の評価が行われるようになってきている。
 ▼
ブッシュ政権時の「落ちこぼれゼロ法」からスタートしたWhat Works Clearinghouse (WWC) プロジェクト
 ▼
これまで行われてきた教育関係の実証研究を片っ端から収集し、系統的に整理し、インターネットで公開することで、どのような教育方法が科学的に推奨されるのかを明らかにして、教育の質を向上させようとした。

野球にも経済学にも

セイバー・メトリクスという考え方。
貧乏球団でも統計学をうまく使えば、プレーオフで優勝争いに絡めることを示した。
映画「マネーボール」を見ればよい
経済学においては、「経済成長が起こるかどうかはどう説明されるのか」という問いに対して、統計学的な解析で明らかになってきた。
 ▼
経済成長において重要なのは「技術の進歩」であり、さらに、技術の進歩に寄与する教育レベルや技術開発を行った場合に、その利益が開発者に適切に配分されるかという「社会制度」である。
天然資源の有無が関連しえいるとは言えないことが明らかにされてきている。

ITと統計学の素晴らしき結婚

統計学が今になって花開いた最大の理由。
それはITの進歩である。
どんな大量のデータでも、どんな計算でもできる技術ができた今、何を計算参すべきかと考えると統計解析以外にはありえない。
「統計解析」という言葉が魅力的でないなら、「ビッグデータ」とか「ビジネスインテリジェンス」といった流行言葉を生み出せばよい。

これからの10年で最もセクシーな職業

Googleのチーフ・エコノミストのハル・ヴァリアン博士が2009年1月にマッキンゼー社の発行する論文誌で語った言葉。
『私はこれからの10年で最もセクシーな職業は統計家だろうって言い続けているんだ』

第2章 サンプリングが情報コストを激減させる

ビッグデータ狂想曲

狂想曲を盛り上げる専門用語
・データマイニング
・テキストマイニング
・Ecadata
・Greenplum
・分散処理
・インメモリデータベース
・Hadoop
・AWS
・非構造化データ
・NoSQL
・KVS
・R言語
営業トークには事欠かない専門用語が飛び交い始めているが…。

ニューディール政策

1929年、大恐慌時代。
アメリカの失業率は25%に達していた。(2012年11月時の日本の失業率は4.1%)
 ▼
優秀な数学者や経済学者を政府の職員として選びたい放題だった。
 ▼
ニューディール政策の最終的なゴールは不況を脱出することであったが、まずは正確な失業者数の把握が必要だった。
アプローチは2つ。
・全数調査
・サンプリング調査
サンプリング調査は当時最先端である統計学を学んだ若者たちから出された。
先行して行われたのはサンプリング調査だった。
正確な失業率のほか、全国民の10%が全国民の40%の富を得ているという格差も示唆したが、当時のおっさんたちは、無作為に抽出したものは信用できないと、全数調査を支持した。
 ▼
10年以上も慎重な検証が重ねられ、驚くほど正確なものだったということがわかった。
 ▼
いまだに、80年前のアメリカのおっさんたちと同じように、サンプリング調査の結果だからあてにならないという意見が出るというが…。

コスト

サンプリング調査へのよくある反論。
もし、サンプリングが偏っていたとしたら?
 ▼
例えば、真の失業率が0.5%で、人口1億2千万の0.5%である60万人を調査した結果、全員が失業者である確率は0ではないが、その確率は、200分の1の60万乗という奇蹟が必要となる。
なお、誤差の計算は必要となる。
標準誤差は真の割合が50%の時に最大となる。
標準誤差はサンプルから得られた割合に対して、標準誤差の2倍を引いた値から標準誤差の2倍を足した値までの範囲に真の値が含まれている信頼性が約95%という値になる。
 ▼
例えば、サンプルを1万増やしても0.3%しか標準誤差が変わらないことがある。
とすると、1%やそこらの精度を改善するのに、数千万円も投資することは価値があるのか?また、深刻な影響があるのか?
 ▼
そうでないのであれば、必要最小限のデータを扱うだけで十分である。

第3章 誤差と因果関係が統計学のキモである

データ分析において重要なのは、その解析がかけたコスト以上の利益をもたらすような判断をもたらすのか?ということである。
 ▼

集計だけでよかったのは19世紀まで

平均を出したり、パーセンテージを出したりといった古典的な統計は19世紀までのものであった。
例えば、ナイチンゲールの功績で有名なのは、戦闘で負った傷が原因でなくなる兵士より、負傷後に何らかの菌に感染したせいで死亡する兵士の方が圧倒的に多かったことを明らかにしたことだという。
 ▼
だが、統計学はナイチンゲールの時代からはるかに進化を遂げた。
ナイチンゲールの集計グラフは、死亡原因の大きさ自体は明らかにできたかもしれない。
 だが、
清潔な病院を整備すれば戦死者を減らせるのか
病院の整備にどれだけコストをかければ、どれだけの命が救われるのか
 といった命題については答えられない。
 ▼
現代的な統計手法が必要となる。

ツッコミどころが多すぎるグラフ

適切な比較を行わない一面的な単純集計は極めておろかである。
「十分なデータ」をもとに「適切な比較」を行うことこそ大事である。
例:次の食べ物を禁止すべきか考えてみよう
・心筋梗塞で死亡した日本人の95%以上が生前ずっと食べていた
・強盗や殺人などの凶悪犯の70%以上が犯行前24時間以内に食べていた
・日本人に摂取を禁止すると、精神的なストレスが見られることがある
・江戸時代以降に日本で起こった暴動のほとんどはこの食べ物が原因である
この食べ物とは「ごはん」である。

あるある はあてにならない

いわゆる「マーフィの法則」
にわか雨が降っているときに傘を買うと、たいてい直後に晴れる
こうしたことは、「記憶の偏り」に左右されているということは、心理学者あるいは認知科学者によって実証されている。
 ▼
同様に、ビジネス上の成功法則も、ほんの数例程度の偏った成功体験を過剰に一般化したものとは言えないだろうか?
人間は一度先入観を持つと、すべてのことを都合よく解釈してしまうという認知的な性質を持っている。
 ▼
こうした人間の欠陥を統計学は補うことができる。

p値5%以下を目指せ

単純なクロス集計から売り上げを増加させる可能性のある要因を明らかにし、売り上げ増加の試算もできたとする。
 ▼
これはあくまでも皮算用
「誤差」を考慮する必要がある。
 ▼
フィッシャーたちの時代とそれ以前の統計学の大きな違いは、誤差の取り扱い方にある。
・どれくらいの誤差があるか
・真に知りたい値に対してどれほどの影響を持つか
・誤差を考慮したうえでも意味のある結果かどうか

A/Bテスト

A/BテストとはAパターンとBパターンの両方を試して比較するというものである。
3種類ある場合は、ランダム化比較実験と呼ぶ

カイ二乗検定とp値の登場

クロス集計が、意味のあるかたよりなのか、誤差でもこれくらいの差は生じるのかを確かめるのには「カイ二乗検定」が有効である。
 ▼
実際にはなんの差もないのに誤差や偶然によってたまたまデータの差が生じる確率を「p値」という。
p値が5%以下であれば、科学者は偶然得られた結果とは考えにくいと判断される。

因果関係の向き

データの解析によっては、因果関係の向きとして逆の説明が成り立つことがある。
例えば:
 広告覚えているから買った
   のか
 買ったから広告を覚えているのか
 ▼
そもそものデータの取り方の時点でフェアに条件をそろえる必要がある。

第4章 「ランダム化」という最強の武器

ランダム化比較実験

データの取り方を工夫する
近年ウェブ業界ではA/Bテストと呼ばれ、統計家が長年「ランダム化比較実験」と呼ぶ手法
 ▼
どれほど強力か?
「人間の制御しうる何物についても、その因果関係を分析できる」
 ▼
科学哲学を揺り動かし、科学で扱える対象の領域を爆発的に拡大させた方法論
世界で初めてランダム化比較実験を体系的に立てた著書
フィッシャーが1935年に著した「実験計画法」

科学は観察と実験からなる

ランダム化比較実験という枠組みは、実験とはなにかという考え方を前に進めた
 ▼
フィッシャーのランダム化比較実験によって「誤差のある現象」を科学的に扱うことができるようになった。

誤差への三つのアプローチ

100回やって100回必ずそうなるわけではないという現象を科学的に扱う時のアプローチは三つ考えられる
1.実際のデータをまったく扱わず、仮説だけを基にして理論モデルを組み立てる
2.うまくいった事例のみを結果として報告する
3.ランダム化を用いて因果関係を確率的に表現しようとする
 ▼
ランダム化してしまえば、比較したいグループの諸条件が平均的にほぼそろう

攻めのための統計学

ランダム化比較実験は過ちを犯す可能性を小さなコストとリスクでつぶすことができる
 逆に
小さなコストとリスクで「あえて間違いを犯すこともできる」
 あるいは
あえてバカな思いつきを試す
 ▼
ジョーアンファブリック社
月に100万件以上のユニークアクセスを生かして、積極的なA/Bテストに取り組んでいた
 そのなかで
「ミシンを2台買うと1割引き」というキャンペーン」をやった
 ▼
ほしいミシンが1割引きになるため、わざわざ隣人や友人を誘って共同購入を呼び掛ける現象が起きた
 ▼
統計学的な裏付けがないのにそれが絶対正しいと決めつけることと同じくらい、統計学的な裏付けがないのにそれが絶対誤りだと決めつけることも愚かである。
コンチネンタル航空
飛行機の遅延やダブルブッキングのアフターケアについて、ランダム化比較実験を行った
 ▼
1.ただ正式な謝罪のレターを送る
2.謝罪レターに加えプレミアムクラブへのお試し無料入会期間を与える
3.特に何もしない
 ▼
わび状のなかった人たちは何か月後も怒っていた
わび状を受け取った人たちは翌年コンチネンタル航空へ費やすお金が8%増えた
 さらに
プレミアムクラブへの無料入会期間を与えてもらった顧客の3割は自腹で会費を払うようになった
 ▼
1億5000万ドル以上の売り上げ増加につながった

ランダム化はむずかしい

ランダム化には人間の意思が入り込まないようにすることである
 ▼
人が無作為らしく、あるいはてきとうに、出した数字は、しばしばそれほどランダムではなかったりする

ランダム化の3つの限界

1.現実の壁
  絶対的なサンプル数の制限、条件の制御不可能性である
  つまりは、1回だけのチャンス、あるいはせいぜい数回のチャンスの場合、ランダム化は無力である。
2.倫理の壁
  すでに悪いとされていることを、将来のためにということであっても実験することはできない
  統計家たちの間で共有されている倫理的ガイドライン
  ・ランダム化によって人為的にもたらされる、一つまたはすべての介入が明らかに有害もしくはその可能性が高い場合は×
  ・すべてが有害でなくても、明らかに不公平なレベルでものすごくいいものとそれほどでもないものが存在していると事前に分かっている場合も×
3.感情の壁
  運次第で自分の運命が左右されるのはイヤと実験に参加する人が思うことを止めることはできない

第5章 ランダム化ができなかったらどうするか?

スノウ以後

進歩を遂げた疫学的方法論により、喫煙と肺がんの関係性について統計学的な分析が試みられた。
「ケースコントロール研究」と呼ばれるデータの取り方が重要である。
 ▼
フィッシャーからの反論
ランダム化比較実験を行っていない解析ではいくら同様と考えられるグループ内で層別解析をしたとしても厳密に同様な集団間の比較なんてありえない
 ▼
ジェローム・コーンフィールドたちによる1959年の論文
全世界の研究を引用し、総合的に判断した結果、喫煙ががんのリスクであると考えて間違いない
どの国においても同様のン結果が示されている
揃えきれていない条件が存在している可能性は捨てきれない
 だが、
厳密さに執着するために、大きな危険かもしれないとわかっていることをあえて避けないというのも愚かな判断ではないだろうか?
 ▼
医療経済研究機構が最新の疫学研究をもとに算出
喫煙によって余計にかかる医療費や失われる労働力などを合わせると、毎年7兆円以上が日本経済の損失となっている
たばこ税や経済効果ではこの半分も補てんできない

回帰分析

t検定、カイ二乗検定、分散解析、回帰分析
 ▼
これらの統計手法はすべて大きくいえば「一般化線形モデル」という広義の回帰分析の考え方で統一的に理解できる。
1972年、ネルダーとウェダーバーンという二人の統計学者によって示されている

回帰分析

当時生まれた統計学的手法の多くは、進化論的な考え方の検証のために生み出されていた。
生物を分析するための統計学は、ダーウィンの従兄弟であるフランシス・ゴルトンだった。
 ▼
「平凡への回帰」
ゴルトンの興味は人間の知性に関する遺伝の法則にあった
 ▼
ゴルトンは約1000組の親子の身長を測定し、優秀な親から優秀な子どもが生まれる現象を実証しようと試みた。
 ▼
子どもの身長=74.7.cm+0.57×両親の身長の平均値(cm)
 ▼
データ間の関係性を記述、あるいは、一方のデータから他方のデータを予測する数式を推定するのが回帰分析
数式で記述される直線のことは回帰直線と呼ぶ
 ▼
上記の結果示されたのは、「平凡への回帰」、実際のデータは理論上の推測よりも平均値に近づくのである。

ゴルトンの回帰分析の限界

データの中心をとおる直線とそれを表す数式を導いただけである。
直線の周辺にデータが密集している場合には有効だが、データが拡散しており、たまたま直線を引いた場合にはあまり有効ではない
 ▼
フィッシャー
無制限にデータを得られればわかるはずの真に知りたい値を「真値」とよんだ
たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを整理することで、無限にデータを集めることなく適切に判断が下せるという考えを示した
 ▼
フィッシャーのランダム化比較実験に並ぶもう一つの大きな功績

統計学の理解のためのマトリックス

統計学の教科書は、一般化線形モデルの扱いで2種類に分けられる

分析軸(説明変数)
2グループ間の比較他グループ間の比較連続値での多寡で比較複数の要因で同時に比較
比較したい(結果変数)もの連続値平均値の違いをt検定平均値の違いを分散分析回帰分析重回帰分析
あり/なしなどの2値集計表の記述とカイ二乗検定ロジスティック回帰

重回帰分析とロジスティック回帰

重回帰分析は説明変数、つまりは予測したい結果に影響する要因が複数ある状況へ拡張された回帰分析である。
 ▼
フェアな比較を行うために必要な手法
 では
フェアな比較ができない例としてシンプソンのパラドックスがある
A高校とB高校お生徒に同じ模擬試験を受験させた
男子生徒同士での比較ではA高校の平均点はB高校よりも5点高い
女子生徒同士での比較ではA高校の平均点はB高校よりも5点高い
では、A高校とB高校の平均点を男女全体で比較するとどちらが高いか?
 ▼
普通に考えると、当然A高校になる
 ▼
必ずしもそうなるとは限らないのが、統計リテラシーの力である。
 ▼
全集団同士での単純比較は、内訳となる小集団同士との比較の結果と矛盾することがある
上記の場合
A高校の男子が160名で平均点が60点、B高校の男子が40名で平均点が55点
A高校の女子が40名で平均点が75点、B高校の女子が160名で平均点が70点
 ▼
A高校の平均点は63点、B高校の平均点は67点
 ▼
逆転する
 ▼
性別の違いにより平均で何点違うかという回帰係数と、高校によって平均で何点違うか、という複数の回帰係数を同時に推定するのが重回帰分析である
例えば
苅谷剛彦「学力と階層」
 ▼
読み取れることは
宿題をまじめにやって長時間過程で勉強する子供よりも、学校の宿題をやらず塾通いだけをする子供のほうが理論上良い成績をとる

オッズ比を用いるロジスティック回帰

もともと0か1かという二つの値の結果変数を変換し、連続的な変数として扱うことで重回帰分析を行えるようにした、というのがロジスティック回帰の大まかな考え方
 ▼
ロジスティック回帰では回帰係数をオッズ比、つまり、約何倍そうなりやすいかで示す。
これで行くと先ほどの「学力と階層」
塾通いの有無以外にも家庭環境による学習習慣の影響は大きいのではないかという結果が示唆されれる
・宿題をきちんとしているものが勉強時間がゼロになる割合は0.55倍
・家庭の階層が下位グループであれば勉強時間がゼロになる割合が1.78倍
・父親が大卒であれば0.60倍

因果の推論

回帰係数の推定にあたっては、変数間はお互い相乗効果のない状態で平均的にどういった違いが生じているのか
 ▼
回帰モデルを使う上で重要な注意点の一つが、交互作用が本当に存在していないのかというものである。
 ▼
正確さを求めるあまり、すべての交互作用を検討していたら、訳のわからない結果になるという問題がある
 ▼
交互作用を含め自動的に誤差とは考えにくい説明変数だけを選び出して回帰モデルを構築する変数選択法と呼ばれるアルゴリズムも研究されている
これらの問題に対しての有効な解決策
1983年、ローゼンバウムとルービンという統計学者によって発表された傾向スコアあるいはプロペンシティスコアと呼ばれる手法
 ▼
傾向スコア
興味のある二値の説明変数について、どちらに該当するかという確率のことを言う
 発見
例えば、喫煙の場合、年齢や居住地域、職業などの条件から推定された喫煙するだろうという確率が同じ集団同士で比較すればその他の条件と喫煙の有無の関連性が喫煙の有無と肺がんの関連性をゆがめることはなくなる

第6章 統計家たちの仁義なき戦い

統計学の6つの分野

1.実態把握を行う社会調査法
2.原因究明のための疫学・生物統計学
3.抽象的なものを測定する心理統計学
4.機械的分類のためのデータマイニング
5.自然言語処理のためのテキストマイニング
6.演繹に関心を寄せる計量経済学

社会調査法と疫学・生物統計学

正確さを追求する社会調査のプロたち
 ▼
可能な限り偏りになく、求められる誤差の範囲に収まる推定値を最も効率よく得るためにはどうすればいいのか
 ↓↑
妥当な判断を求める疫学・生物統計家
両者に共通する考え方は、最終的に結果に与える影響の大きい原因を探すことである。
p値に基づき、原因がきちんと見つかるのであれば、推定値について社会調査分野の統計家が重視する点にこだわらない傾向にある。
 ▼
疫学・生物統計家はランダムサンプルにほとんどこだわりを見せない
正確な推定値よりも妥当な判断を大事にする。
両者の学問的な視座による見解の相違がここにある

心理統計学

スピアマンが分析したのは知能を表すはずの指標の間の相関である。
 ▼
異なる知能の側面同士がある程度創刊しているという結果である。
そして、別々に考案された知能にかかわる指標全てと相関する合成変数が作り出せることがわかり、この変数がわかれば、ほとんどの知能に関連したテストの成績が予測できる
この指標を一般知能と呼んだ
 ▼
今ではスピアマンの分析方法は因子分析と呼ばれている
心理統計学の中で好まれる手法に「パス解析」がある。
心理的因子を含む変数間の関係性を楕円と矢印で示す

データマイニング

データマイニングは学者の手によるもの以上に、マーケティングやデータ処理の現場から生まれた手法である
1993年にラケシュ・アグラワルが作った「バスケット分析
 ▼
データマイニングの事例として「おむつとビール」がある。
 ▼
ある商品を買っている人が別の商品を買っている割合を信頼度(Cofidence)と呼び、改善度(Lift)を加味して分析する。
現在であれば、Amazonのレコメンドを思い浮かべればよい
バスケット分析のような単純な計算方法だけでなく、高度なアルゴリズムがデータマイニングで用いられることもがる。
ニューラルネットワークやサポートベクターマシン、クラスター分析などがそれである。
 ▼
ニューラルネットワークやサポートベクターマシンという手法を用いれば、曲線的な関係性や交互作用を含め識別力が高いと考えられる分類を行うことができる
予測自体がゴールであれば、データマイニングは有効
予測モデルから今後何をすべきかを議論するためには、回帰モデルの方が役に立つ

テキストマイニング

自然言語で書かれた文章を統計学的に分析する
 ▼
形態素解析:文章を単語ごとに分割し、どのような単語が何度使われているかを集計する作業
そのためには、単語の情報が整理された辞書データが必要となる
 ↓↑
N-Gram:機械的に重複を許したN文字ずつの文字列を切り出して、そこから求める単語を探すやり方
ビジネス領域における応用例
カスタマーサポートセンターに対するお問い合わせ内容の分析
 ▼
対応マニュアル、FAQへの整備へつながる

計量経済学と統計学

「演繹」の計量経済学と「帰納」の統計学
 ▼
表面上の違いは
計量経済学者の方が統計家よりも交互作用項を含む説明変数の選択についてより慎重な検討を行う傾向にある
 ▼
本質的な違い
「帰納」:個別の事例を集めて一般的な法則を導こうというやり方
「演繹」:ある事実や仮定に基づいて、論理的推論により結論を導こうとするやり方

分野をまたぐ確率自体の考え方

確率自体の考え方の対立
 ▼
頻度論者」か「ベイズ論者」か
 ▼
一言でいえば
「事前に何らかの確立を想定するか」「しないか」
頻度論者はシンプルに考える
確率を「何回中の何回」といった「頻度」でとらえようといういい
 ↓↑
ベイズ論者
事前確立と事後確率を考える
 ▼
何の情報もない時点で、事前確立を考える
事前確立という仮定を置くとデータからどういったことがいえるのかという演繹が可能となる。計量経済学に相性が良い。
また、データマイニングにも威力を発揮する。
有名なのは迷惑メールを判別するアルゴリズム。

終章 巨人の肩に立つ方法

エビデンスのヒエラルキー

上 メタアナリシス(meta-analysis)と系統的レビュー(systematic review)
    ▲
   ランダム化比較実験
    ▲
   疫学・観察研究
    ▲
下 専門家の意見・基礎実験

公開されている情報

系統的レビューとメタアナリシスの結果は公開されているものがある。
●コクラン共同計画(http://www.cochrane.org/)
  1992年にイギリスの医師であり疫学者であるアーチボルト・コクランの提唱によるもの
●キャンベル共同計画(http://www.campbellcollaboration.org/)
  上記のコクラン共同計画に触発され、社会政策科学分野で2000年にスタートしたもの
●What Works Clearinghouseプロジェクト(http://ies.ed.gov/)
  2002年にスタートした教育分野のプロジェクト
その他にGoogleが提供するGoogle Scholar(http://scholar.google.co.jp/)も便利
日本語文献の文献データサービス
●cinii(http://ci.nii.ac.jp/)
  国立情報科学研究所
●J-STAGE(https://www.jstage.jst.go.jp)
  科学技術振興機構

ちょっと調べてみよう

例えば、雇用対策をどうすればよいのかに興味があったとすると
 ▼
職業訓練の様な政策プログラムは中期的な雇用対策として有効に機能する可能性がたかい
職探しに関する支援も中期的に有効である
一般企業に対して雇用のための補助金を出すやり方も悪くない
 だが
行政や公益法人の様なものに対して雇用のための補助金を出すのは、あまりうまくいっていないらしい

目次

第1章 なぜ統計学が最強の学問なのか?
 01 統計リテラシーのない者がカモられる時代がやってきた
  H・G・ウェルズの予言/あみだくじの必勝法/統計学を制する者が世界を制する
 02 統計学は最善最速の正解を出す
  統計学が最強の武器になるワケ/「疫学の父」ジョン・スノウの活躍/人類の寿命は疫学が伸ばした
 03 すべての学問は統計学のもとに
  「エビデンス」が医療を変えた/教育にも活かされるエビデンス/野球にも経済学にもおよぶ統計学の影響
 04 ITと統計学の素晴らしき結婚
  なぜ今、統計学が花開いたのか/フラミンガム研究の調査が2年に1回だったわけ/退屈だった「紙とペンの統計学」/「ビッグデータ」という言葉が流行るわけ/これからの10年で最もセクシーな職業

第2章 サンプリングが情報コストを激減させる
 05 統計家が見たビッグデータ狂想曲
  狂想曲を盛り上げる専門用語/データを活かすのにお金は要らない
 06 部分が全体に勝る時
  失業率25%!/ニューディール政策を支えた統計家たち/全数調査vsサンプリング調査/80年前と変わらないおっさんたち
 07 1%の精度に数千万円をかけるべきか?
  サンプリング調査への「よくある反論」/誤差を計算する方法/サンプルを1万増やしても標準誤差は0・3%しか変わらない/まずは、正しい判断に必要な最小十分のデータを

第3章 誤差と因果関係が統計学のキモである
 08 ナイチンゲール的統計の限界
  「ふ〜ん」としか言えないグラフ/データをビジネスに使うための「3つの問い」/「集計」だけでよかったのは19世紀まで
 09 世間にあふれる因果関係を考えない統計解析
  ツッコみどころが多すぎるグラフ/よくわからないまま使われる指標たち/死者・犯罪・暴動を生み出す食べ物とは?
 10 「60億円儲かる裏ワザ」のレポート
  買ってくれる人、買ってくれない人の違いは何か?/「あるある」は当てにならない/DMの送り方を変えるだけで売上が60億円アップする
 11 p値5%以下を目指せ!
  「誤差」を考えない試算は皮算用/「A/Bテスト」とはお馴染みの比較検討のこと/「0.1%」の差は出たけれど/「カイ二乗検定」と「p値」の登場
 12 そもそも、どんなデータを解析すべきか?
  裏ワザを見つける3つめのポイント/ビジネスにおける明確なゴール/それは利益につながっているのか?/CPU温度の解析がコスト削減につながった
 13 「因果関係の向き」という大問題
  因果関係には向きがある/ゲームと少年犯罪の因果関係は明らかにできるのか?/「フェア」じゃないからわからない/2つの解決法

第4章 「ランダム化」という最強の武器
 14 ミルクが先か、紅茶が先か
  「科学」の対象を拡大したランダム化比較実験/なぜ、ランダムでなくてはならないのか?/「1杯の完璧な紅茶の淹れ方」/オカルトとペテンの見破り方/研修やDMの効果測定にも
 15 ランダム化比較実験が社会科学を可能にした
  科学は「観察」と「実験」からなる/「誤差」あるものの科学/「誤差」への3つのアプローチ/『実験計画法』は農場で生まれた
 16 「ミシンを2台買ったら1割引き」で売上は上がるのか?
  「攻め」のための統計学/「誤り」と決めつけることの愚かさ/1億5000万ドルを稼いだクレーム対応/ランダムは意外とむずかしい
 17 ランダム化の3つの限界
  「現実」の壁/「倫理」の壁/「感情」の壁

第5章 ランダム化ができなかったらどうするか?
 18 疫学の進歩が証明したタバコのリスク
  タバコの箱を見てみよう/「ケースコントロール研究」の登場/天才フィッシャーからの反論/
世界中のデータによる再反論/「揃えきれていない条件」にどこまでこだわるべきか
 19 「平凡への回帰」を分析する回帰分析
  回帰分析とは何か/背の低い野村くんの恋愛/ダーウィンの従兄弟と優生学/「平凡への回帰」の発見/「オリンピックの魔物」の正体
 20 天才フィッシャーのもう1つの偉業
  ゴルトンの回帰分析の限界/回帰係数自体にバラつきがある/統計学者も理解できなかった「真値」というアイディア/回帰分析を使うための基礎用語
 21 統計学の理解が劇的に進む1枚の表
  統計学の教科書は一般化線形モデルの扱いで2種類に分けられる/「1枚の表」の使い方/どの方法でも同じp値が得られるわけ/紛らわしい用語「一般線形モデル」
 22 重回帰分析とロジスティック回帰
  学者も多用する統計手法の主役/フェアな比較が崩れるシンプソンのパラドックス/層別解析でパラドックスは防げるが……/層分けを不要にする重回帰分析/オッズ比を用いるロジスティック回帰/回帰分析が読めれば「いいかげんな言説」が駆逐できる
 23 統計学者が極めた因果の推論
  回帰モデルを使う際は交互作用に注意する/ドツボにはまる変数選択作業/限りなくランダム化に近づく「傾向スコア」

第6章 統計家たちの仁義なき戦い
 24 社会調査法vs疫学・生物統計学
  統計学の6つの分野/正確さを追求する社会調査のプロたち/「妥当な判断」を求める疫学・生物統計家/終わりのない言い争い
 25 「IQ」を生み出した心理統計学
  「一般知能」の発明/知能を7つに分けた多因子知能説/心理統計家の考え方と手法/心理統計家は「質問紙」に命をかける/IQへの結論
 26 マーケティングの現場で生まれたデータマイニング
  意外なほど新しいデータマイニングの歴史/「おむつとビール」でバスケット分析/バスケット分析よりもカイ二乗検定を/人工知能の研究から生まれた高度な手法/なぜ、データマイニングの専門家は回帰モデルを「古臭い」と言うのか?/「予測」に役立つデータマイニング
 27 言葉を分析するテキストマイニング
  計量文献学が否定した「シェイクスピア=ベーコン説」/テキストマイニングの王道「形態素解析」とGoogleを支える「N-Gram」/ビジネスにおけるテキストマイニングの活用法/テキストマイニングを活かすコツはそれ以外の統計リテラシー
 28 「演繹」の計量経済学と「帰納」の統計学
  統計学と計量経済学の「表面的」な違い/統計学と計量経済学の「本質的」な違い/よりよいモデルを求める計量経済学者/影響力を強める計量経済学
 29 ベイズ派と頻度論派の確率をめぐる対立
  頻度論派はシンプルに考える/ベイズ派は「事前確率」と「事後確率」を考える/計量経済学と相性がいいベイズ統計/迷惑メールの判別に威力を発揮するベイズ統計

終章 巨人の肩に立つ方法
 30 「最善の答え」を探せ
  エビデンスのヒエラルキー/最高のエビデンス「系統的レビュー」と「メタアナリシス」/「最善の答え」は公開されている
 31 エビデンスを探してみよう
  日本語文献の探し方/英語文献の探し方/明らかになる課題