· 

ビッグデータ・ブームの陰り

ビッグデータ・ブームの陰り

  2018.09.29

 最近はビッグデータを、ソフト解析して、新たな知見を得ようというのが流行だ。いままで扱えなかった大量データをこういう形で生かそうというのだ。

 

 問題は、この手法がデータ解析の万能薬だと誤解されていることだ。しかし最近やや風向きが変わってきた。ウォールストリートジャーナル紙の「IBM『ワトソン』、行き詰まる医療診断への応用」(2018年6月16日)は、その意味でなかなか面白い。ワトソンは2012年にリリースされたが、当初の期待とは異なり6年の歳月と数十億ドルの資金が投じられたも関わらず、あまり役立っていないようだ。

 

 その原因の一つは、「既存のデータを分析することから、新たな知見を生み出すこと」が困難だからだ。これを因果関係を巡る「反事実性」(counter factual )という。たとえばたばこと肺がんの関係をみてみよう。たばこは肺がんの原因といえるだろうか。それを言うためには、①まったくの偶然ではない、②両者に影響を与える第三の因子はない、③逆の因果関係はない」ことを示す必要がある(中室、津川本,p28、Pearl and Mackenzie 第5章)。これらが示されるためには、「反事実」が必要だ。この例でいえば、サンプルが「たばこを吸わなかったら、肺がんにならなかった」ということを示さねばならない。しかしこうしたデータは存在しないので、これは無理なことがわかる。この問題は、かなり昔から知られており、実験では、ランダム化比較試験(randomized controlled trial、RCTと略される,Pearl and Mackenzie 第4章)もしくはその近似法で対処できることがわかっている。しかし経済や社会現象に関しては、実験ができず、分析は既存データに頼らざるを得ない(実験経済学は別)。たとえば「2008年の金融危機が生じなかったら世界経済はどうなっていたか」という問いには、(その事象は起こらなかったので)、既存データから答えを得ることはできない。こうした質問のことを、「what if question」という。これは強いAIと弱いAIの問題とも関連する(Searle論文 参照)。

 

 実はe予測は、この問題を解くための、一つの可能性を与えようとしている。これは、マクロモデルや産業連関表を一体化し、高速で解けるようにしたシステムである。これを使えば、各種の経済的な質問「what if question」に、限定的ではあるが、量的な答えが得られる。たとえば、上の問題(金融危機がなかったら?)も、e予測では、各種の想定を置けば一応の近似解が得られる(問題が生じた時とそうでないときとの差)。ユーザはそこから問題を掘り下げていけばよいことになる。

 

 これは経済モデルを一種の状態方程式と見なすことで実現された。こうしたモデルはスタイライズド・ファクツ(カルドア)から導かれる。モデル式は、最適性ではなく、事後的な関係として捉えられる。

 

 もう少し蛇足を付け加えれば、ビッグデータの元になるデータベースそのものに対する理解が日本では、まだ浅いようだ。まずSQLがあって、それからグーグルなどのNO SQLが存在する。こうしたことを理解しないで、既存ソフトに頼って闇雲な分析を行うと、ビッグデータは単なるごみの山となってしまう。

 

 

(参考)

・Pearl J. and Mackenzie,The Book of Why,Allen Lane,2018

・中室牧子、津川友介、「原因と結果の経済学」、ダイアモンド社、2017

・Ghemawat S.,Gobioff H.,Leung S.,"Google File System",SOP'03,Oct 19-22,2003

・Varian H.,"Big Data: New Tricks for Econometrics", http://people.ischool.berkeley.edu/~hal/Papers/2013/ml.pdf

・ Searle J.,  "Minds, Brains and Programs", The Behavioral and Brain Sciences, vol. 3.,1980