「データは騙る」を読む
2019.06.01
・AI分野で、データをどう処理しているかに興味があったので、本書を読んでみた。著者はエコノミストで内容もまともだ。おそらくこのタイトルで損をしているのではないか。むしろタイトルを、”データ分析にだまされない法”とでもした方が良かったかもしれない。
・本書は、いわゆる統計に基づく分析が、場合によってはかなり怪しげな結果を導くことを様々な例を使って示している。たとえば、ハーバード大学のロゴフ・ラインハートの著作がある(This Time Is Different)。彼らはデータ分析に基づき、政府債務の対GDP比が90%を超えると、成長率が低下することを示した。つまり放漫財政は結局国民に成長率の低下というペナルティを課すというのだ。じつに興味ある結論だ。
・ところが、ある大学院生がロゴフ・ラインハート説の検証を試みた。しかしどうやってもこの結果が再現できない。彼はしつこく両教授に質問を繰り返し、ついに分析の元になったエクセルシートの入手に成功した。この大学院生が元データをチェックしたところ、サンプルの取り方もまた計算のやり方も、結論に都合のいいように操作されていたことがわかった。こうしてロゴフ・ラインハート仮説は根拠がないことがわかった。
・こうした例はとても興味深い。ではデータ分析の受け手たる一般人は、だまされないためには、どうすればよいか。この本の著者は健全な理論に基づいたデータ分析に頼るべきだと主張する。しかしこの主張はやや説得性に欠ける。
・二つ例を出しておく。第一はオゾンホールの問題だ(同書、P231)。人工衛星から取ったデータが外れ値をはじいたために、オゾンホールの発見が遅れた。これは事実だが、話の半分が抜けている。外れ値が重要であることを見いだしたのは、3人の英国の研究者だ。彼らは、人工衛星のデータに頼らず、地上(南極)からの観測に基づいてオゾンホールを発見した。彼らは1979年からこの事実を見いだしていたが、検証に検証を重ね、ネーチャー誌に発表したのは1985年だった。NASAはこの結果に驚き、自らのデータをチェックしたところ、オゾンホールのデータを異常値としてはじいていたことに気づいたわけだ。
・もう一つの例は、ロングターム・キャピタル・マネージメント社(LTCM)の破綻に関するものだ(同書P331)。二人のノーベル受賞学者(ショールズ、マートン)を擁した同社は、最新の金融工学を駆使したにもかかわらず、ロシアが債務返還不能になると財政破綻した。この説明に間違いはないが、LTCMの内部にもこのやり方では破綻するという疑問をいだいた人はいた。
「パートナーの一員であり、コンピュータとは別に自分の嗅覚を信じているジム・マッケンティは、市場の風向きが変わったのをかぎ取った。他のパートナーにリスクを引き下げるよう繰り返し促したが、非科学的な一昔前のギャンブラーとみられ、相手にされなかった」(「天才達の誤算],P209)。
・この二つの例からわかることは、理論に基づくデータ分析だけでは、真実に到達するには不十分だということだ。つまり別の視点から問題を見なおすことが不可欠になる(オゾンホールなら、地上からの観測、LTCMならモデルではない経験豊富なトレーダーの直感)。これはAI流にいえば、分析の深化のためには「What if question」を立てることが不可欠になるということだ。
・この意味で、本書はデータ分析の問題点を指摘してはいるが、あくまで統計学者の立場から議論で、その点がやや物足りない感じがする。
(参考)
・ゲアリー・スミス、「データは騙る」、川添節子訳、早川書房、2019
・Richard Elliot Benedick,Ozone Diplomacy,Harvard Univ. Press,1991,pp18-
・ロジャー・ローウェンスタイン、「天才達の誤算」、東江一紀、瑞穂のりこ訳、日本経済新聞社、2001,pp209