## Memo - プリンストン大学のWebサイト [Leakage and the Reproducibility Crisis in ML-based Science](https://reproducible.cs.princeton.edu/) ## Abstract 予測や予測を目的とした[[機械学習]](ML)手法の利用は、量的科学全体で広く普及している。しかし、MLを用いた科学には、データ漏洩をはじめとする方法論的な落とし穴が多く知られている。本論文では、MLベースの科学における再現性の問題を系統的に調査する。その結果、データ漏洩は実際に広く存在する問題であり、深刻な再現性の欠如を引き起こしていることを明らかにした。具体的には、ML手法を採用した研究コミュニティの文献を調査した結果、誤りが発見された17分野があり、合計で329本の論文が影響を受け、いくつかのケースでは乱暴に楽観的な結論に至っている。この調査に基づいて、我々は、教科書的な誤りから未解決の研究問題に至るまで、8つのタイプの漏れを細かく分類して提示する。 我々は、発表前にリーク事例を発見できるよう、MLベースの科学における根本的な方法論の変更を主張する。そのために、私たちの調査で明らかになったすべてのタイプのリーケージに対応する、MLモデルに基づく科学的主張の報告用モデル情報シートを提案する。再現性エラーがもたらす影響とモデル情報シートの有効性を調べるため、我々は、複雑なMLモデルが[[ロジスティック回帰]](LR)のような古い統計モデルよりはるかに優れていると考えられている分野、すなわち内戦予測で再現性調査を実施した。その結果、LRモデルに比べて複雑なMLモデルの性能が優れていると主張するすべての論文が、データ漏洩のために再現に失敗し、複雑なMLモデルは数十年前のLRモデルよりも実質的に性能が向上していないことがわかりました。これらの誤りは論文を読んでも発見できないが、モデル情報シートがあれば、それぞれのケースで漏れを発見することができるだろう。 ## 1. Introduction