機械学習(ML)を使った研究の再現性(reproducibility)
2022.08.06
・最近は機械学習(Machine Learning)を利用した科学的分析がはやっている。製薬分野から政治学まで、研究者は所有データを機械学習ソフトにかけて予測や構造分析を行っている。
・こうした普及の一つの原因は、手軽に使える機械学習ソフトが利用できるようになったからだ。
・プリンストン大学のカプールとナラヤナンはこの傾向に警鐘を鳴らしている。彼らは、「たとえば化学実験を学習するのに、オンラインで数時間学べば間に合うというわけではない」と述べている。
・かれらの指摘する一番の問題点は、研究の再現性(reproducibility)だ。つまり発表された論文の結果を他の研究者が追試して同じ結果が再現できるかどうかだ。
・彼らは政治学の研究論文(対象はcivil war:内戦)を対象としてこの問題を検討している。その結果、権威あるジャーナルに発表された12論文のうち、4つにデータ・リーケージ(data leakage)があったことを見出している。データ・リーケージとは、MLソフトを学習させるデータ(training set)と実際に因果関係を検証する際に使われるデータ(test data)とが混同されている現象だ。こうしてしまうと、MLソフトは分析前に、結果を分かってしまっていることになる。
・政治学の論文の場合、論文の著者は従来の分析手法(ロジスティック回帰)より機械学習ソフトを利用した方が、予測能力が上昇するという結論を見出している。しかしカプール等は、データ・リーケージを補正するとそうはならないと結論付けている。
・実証分析の場合、こうした再現性チェックは重要だ。心理学では、すでに評価の高い論文の再現性チェックをしており、カーネマンの有名な論文の再現性など確かめられているという。
・話は機械学習に戻る。こうした高度な統計手法を社会科学に無批判に適用することに関して、筆者は懐疑的だ。それは経済社会システム自体が、データ分析に耐えるような大量の定常データを分析者に提供できる可能性が低いからだ。たとえば上記の政治学論文の一つではサンプルデータの数が11しかなかったという。こうした少数データにいくら高度な分析手法を加えても、出てくる結果に信頼性はない。
・社会構造の非定常性を踏まえて、しかもデータから何かを学ぶとすれば、それはモデル計算の結果をデータ可視化することで、様々な分析を可能にすることだ。われわれのe予測が表示パートにデータ可視化を備えたのは、そのためである。
(参考)
・Elozabeth Gibney,"Could machine learning fuel a reproducibility crisis in science?"Nature,26,July,2022
・Sayash Kapoor and Arvind Narayanan,"Leakage and the Reproducibility Crisi in ML-based Science",Princeton Univ.14,July,2022
・Ed Yong,"Psychlogists strike a blow for reproducibility",Nature,2013.14232