## Memo
## Memo with LLM
### 論文情報
- **論文のタイトル**: Position: Embracing Negative Results in Machine Learning
- **著者と所属**: Florian Karl, Lukas Malte Kemeter, Gabriel Dax, Paulina Sierak (Technische Universität Berlin, etc.)
- **カンファレンス/ジャーナル名**: International Conference on Machine Learning (ICML)
- **発表年**: 2024
### 論文概要
本論文は、機械学習分野において予測性能の向上ばかりが重視される現状に異議を唱え、ネガティブな結果(期待通りの性能が出なかった結果など)の公表を推奨するポジションペーパーです。ネガティブな結果を共有することで、研究コミュニティ全体の非効率性を解消し、科学的な進歩を促進できると主張しています。さらに、ネガティブな結果の公表を常態化させるための具体的な施策(ワークショップの開催や査読プロセスの改善など)を提案しています。
### 詳細解説
#### 問題設定
現在の機械学習研究では、論文の価値が「選択されたベンチマークにおける予測性能(SOTAの更新など)」によって判断される傾向が極めて強いです。
- **入力/現状**: 研究者は、既存手法を上回る予測性能を示すことを求められます。
- **問題点**:
- **出版バイアス**: 有意な結果が出た研究のみが出版され、失敗した研究は埋もれてしまう。
- **非効率性**: 他の研究者が同じ失敗を繰り返す(車輪の再発明的な失敗)ことによるリソースの無駄遣い。
- **誤ったインセンティブ**: 性能向上のみを追求し、真に独創的なアイデアや堅実な検証が軽視される。
- **再現性の危機**: 性能を上げるためのハイパーパラメータ調整やデータセットの選定(チェリーピッキング)が横行する。
論文では、ネガティブな結果を以下の2つに分類して定義しています。
1. **Novel Method Negative Results (NMNR)**: 新規提案手法が、既存手法と比較して有意な性能向上を示せなかった場合。
2. **Existing Method Negative Results (EMNR)**: 既存の手法が、想定された条件下で期待通りの性能を発揮しなかった場合(再現実験の失敗など)。
#### 提案手法
著者らは、ネガティブな結果の公表を促進し、コミュニティの文化を変えるために、以下の具体的な施策を提案しています。
1. **専門の発表の場の創設**: ネガティブな結果を歓迎する特集号、ワークショップ、カンファレンストラックを設ける(例:NeurIPSの "I Can't Believe It's Not Better!" ワークショップなど)。
2. **失敗談の共有の推奨**: 成功した論文の中にも、そこに至るまでの失敗やうまくいかなかった試行錯誤を記述することを推奨する。
3. **チャレンジ企画での報告**: コンペティションやチャレンジにおいて、優勝者の解法だけでなく、失敗したアプローチについても報告させる。
4. **教育への統合**: 重要なネガティブな結果(例:勾配消失問題など)をカリキュラムに組み込み、批判的思考を養う。
5. **再現研究へのインセンティブ**: 再現研究や検証研究に対して、出版の機会や資金を提供し、評価する。
6. **査読プロセスの適応**:
- 査読ガイドラインにネガティブな結果の評価基準を含める。
- 結果を見る前に実験設定のみを評価する「Two-Phase Review」や「事前登録」の導入を検討する。
- 著者がネガティブな結果の意義を主張できる仕組み(*ex ante* deliberationなど)を設ける。
#### 新規性
本論文の新規性は、ネガティブな結果の重要性を単に精神論として説くだけでなく、機械学習特有の文脈(急速な発展、実験科学としての側面、計算リソースの問題)に即して分析し、包括的な解決策を提示している点にあります。
- 従来も医学や心理学では出版バイアスが議論されてきましたが、ML分野では性能競争が激しく、この問題がより深刻化しています。
- 単発的なワークショップの開催などはありましたが、本論文はこれを体系的な「ポジション」としてまとめ、コミュニティ全体でのパラダイムシフトを訴えています。
- 「予測性能は科学的進歩のノイズの多い指標である」と断じ、性能以外の価値(実験の堅牢性、分析の深さ、驚きなど)を評価軸に据えるべきだと論じています。
#### 実験設定
本論文はポジションペーパーであるため、新たなアルゴリズムの提案やその性能評価実験はありませんが、主張を裏付けるために以下の文献調査や論理構成を用いています。
- **文献分析**: Roberts et al. (2021) などの調査を引用し、COVID-19検出モデルの多くが臨床的に無用であったことを例に挙げ、予測性能と実用性の乖離を示しています。
- **反事実的考察(Counterfactuals)**: 「ネガティブな結果の公表は研究の質を下げるのではないか?」「何がうまくいかないかを知ることに価値はあるのか?」といった想定される反論に対して、一つ一つ反証を行っています。
#### 実験結果
具体的な数値結果の代わりに、ネガティブな結果を受け入れることによる期待される効果(インパクト)を提示しています。
- **科学的効率の向上**: 無駄な実験の重複を防ぎ、リソースを節約できる。
- **イノベーションの促進**: 性能は出なくても興味深いアイデアが共有されることで、将来のブレイクスルー(例:過去の勾配消失の報告がLSTMに繋がったように)の種になる。
- **健全な研究環境**: 「SOTAを出さなければならない」というプレッシャーから研究者を解放し、より本質的な課題に取り組めるようにする。
- **信頼性の向上**: 再現研究が増えることで、分野全体の知見の信頼性が高まる。
## Abstract
新規の機械学習手法を提案する論文は、選択された問題において示された予測性能によって主に評価されることが多い。本ポジションペーパーでは、予測性能だけでは出版物の価値を示す良い指標にはならないと主張する。それを指標として用いることは、機械学習研究コミュニティ全体の非効率性や、研究者に誤ったインセンティブを与えるといった問題を助長することさえある。そこで我々は、「ネガティブな」結果の公表を呼びかける。これは、これらの問題の一部を緩和し、機械学習研究コミュニティの科学的成果を向上させるのに役立つ可能性がある。我々の立場を立証するために、ネガティブな結果を公表することの利点を提示し、その公表が常態化するパラダイムへとコミュニティが移行するための具体的な方策を提供する。