## Memo
## Memo with LLM
### 論文情報
- **タイトル**: Towards end-to-end automation of AI research(arXiv版: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery)
- **著者と所属**:
- Chris Lu, Cong Lu, Robert Tjarko Lange, Yutaro Yamada, Shengran Hu, David Ha(Sakana AI)
- Jakob Foerster(University of Oxford)
- Jeff Clune(University of British Columbia, Vector Institute, CIFAR Chair)
- **ジャーナル**: Nature
- **発表年**: 2026年3月25日
### 論文概要
科学研究のライフサイクル全体(アイデア創出・実験・論文執筆・査読)をエンドツーエンドで自動化するパイプライン「The AI Scientist」を提案した論文である。テンプレートベース(v1)とテンプレートフリー(v2)の2つのモードを提供し、v2が生成した論文がICLR 2025のワークショップ査読を通過(平均スコア6.33)したことを実証した。また、基盤モデルの能力向上に比例して生成論文の品質も向上するというスケーリング則を発見した。
### 詳細解説
#### 問題設定
- **入力**: 機械学習の研究分野(例: 拡散モデル、[[Transformer]]ベースの言語モデル、学習ダイナミクス)または広範なテーマ指定
- **出力**: 完全な科学論文(LaTeX形式、査読スコア付き)
- **前提**: 計算実験のみを対象とする(現時点では実験室実験は対象外)
- **課題**: 個々のコンポーネント(仮説生成・コーディング・論文執筆)は既存研究で自動化されていたが、構想から出版までの全ライフサイクルを統合的に自動化するシステムは存在しなかった
#### 提案手法
##### アーキテクチャ
**4フェーズの線形ワークフロー(共通):**
1. **アイデア生成**: 研究方向・仮説のアーカイブをイテレーティブに構築。Semantic Scholar APIで既存文献と照合し、重複アイデアを除外
2. **実験実行**: 実験計画の実装・実行・可視化
3. **論文執筆**: LaTeXテンプレートを埋める形で論文を生成
4. **自動査読**: Automated Reviewerによる品質評価
##### テンプレートベースシステム(v1)
- 人間が提供した出発点コード(例: nanoGPTの学習スクリプト)を使用
- Aiderコーディングアシスタントでコードを修正・拡張
- 実験失敗時は自動デバッグ(最大4回リトライ、タイムアウト7,200秒/実験)
- 1論文あたり15ドル未満のコスト
##### テンプレートフリーシステム(v2)
- **モデル分担**:
- OpenAI o3: アイデア生成・コード批評(強力な推論能力を活用)
- Anthropic Claude Sonnet 4: コード生成
- OpenAI GPT-4o: Vision-Language タスク(図表フィードバック)
- OpenAI o4-mini: 査読フェーズの効率的推論
- **並列化Agentic Tree Search**: 実験を木構造で並列探索
- **Experiment Progress Manager**: 4段階の実験管理(予備調査→ハイパーパラメータ調整→メイン実験→アブレーション)
- 生成時間は数時間〜15時間以上
##### Agentic Tree Search の詳細
各ノードは以下の実行サイクルを経る:
1. Claude Sonnet 4が実験計画とPythonコードを生成
2. コードを即座に実行
3. エラーがあればノードをbuggyとしてマーク
4. 成功した場合はプロット生成→VLM(GPT-4o)でレビュー
5. VLMが問題(不明瞭なラベル、欠損凡例など)を検出した場合もbuggyにマーク
**ノードの種類:**
- **Hyperparameter node**: ハイパーパラメータ空間を体系的に探索
- **Ablation node**: アブレーション実験を評価
- **Replication node**: 異なる乱数シードで実験を複製(平均・標準偏差の計算用)
- **Aggregation node**: 複製結果を集約・可視化(新実験は行わない)
#### 新規性
- 科学研究プロセス全体のエンドツーエンド自動化(先行研究は個別コンポーネントのみ)
- Agentic Tree Searchを用いた並列・適応的な実験探索
- 人間と同等精度の自動査読システム(Automated Reviewer)の構築・検証
- AIが生成した論文が実際の盲査読プロセスを通過したことの実証
#### 実験設定
- **実験環境**: 計算実験のみ(ハードウェア詳細は論文には明記されていないが、並列実行)
- **データセット**: nanoGPT実験ではShakespeare文字列・enwiki8・text8、テンプレートフリー版ではCrop Pest and Disease Detection・Waterbirds・CelebAおよびHuggingFace Hubのデータセット
- **比較対象**: 人間レビュアー(OpenReview ICLR データセット 1,000件)、NeurIPS 2021一貫性実験
- **評価指標**: 均衡精度(Balanced Accuracy)、F1スコア、論文の平均スコア(1〜10スケール)
#### 実験結果
##### Automated Reviewerの性能
| 指標 | Automated Reviewer | 人間レビュアー(ICLR) |
|------|-------------------|-----------------------|
| 均衡精度(2017-2024) | **69%** | 66%(NeurIPS 2021) |
| 均衡精度(2025年、学習カットオフ後) | 66% | 66% |
| F1スコア | **0.62** | 0.49(NeurIPS 2021人間間合意) |
- 学習カットオフ後のデータでも均衡精度66%を維持(データ汚染の影響は最小限)
- Bootstrap検定およびz検定で統計的有意性を確認
##### 査読通過実験
- 投稿先: ICLR 2025 ICBINB(I Can't Believe It's Not Better)ワークショップ(受理率70%)
- 3本のAI生成論文を投稿、うち1本が受理閾値を超過
- 受理論文の平均スコア: **6.33**(個別スコア: 6, 7, 6)
- 人間執筆論文の**55%**を上回るスコア
- 受理論文はネガティブな結果を報告する内容でワークショップのテーマに合致
- 事前合意に従い、受理後に論文を取り下げ
##### スケーリング則
- 使用する基盤モデルが新しく高性能になるほど、生成論文の品質が向上する明確な相関を確認(Fig. 1b)
- 1論文あたりの計算量とアウトプット品質にも強い相関あり(Fig. 3c)
#### 考察 (Discussion)
- スケーリング則の発見により、計算コストの低下とモデル能力の指数的向上に伴い、将来バージョンが大幅に改善されると推定
- AIタスク実行可能長が7ヶ月ごとに2倍になるという既存研究([^40])を引用し、現在の実装・デバッグのボトルネックが近い将来解消される可能性を示唆
- ただし、AIの欺きやすさ(adversarial examples)や過信した誤り(幻覚)は依然として課題
#### 強み (Strengths)
- 科学研究の全ライフサイクルを統合的に自動化した初の実証システム
- 実際の盲査読プロセスで通過という客観的・外部検証済みの評価
- スケーリング則の発見により将来性を定量的に示した
- オープンソース(Apache License 2.0)
#### 弱点・課題 (Weaknesses / Limitations)
- 3本投稿中1本のみ受理(ワークショップレベル)。メイン会議(ICLR主会議の受理率32%)の基準は未達
- ナイーブ・未発達なアイデアの生成、誤実装、方法論的厳密性の欠如、幻覚(誤引用・図の重複)などの失敗モードが存在
- 現時点では計算実験のみを対象とし、実験室実験(化学・生物学等)には未対応
- AIが真に創造的な「大きな概念的飛躍」を生み出せるかどうかは不明
## Abstract
科学の自動化は、人工知能(AI)研究における長年の野望である。コミュニティは科学プロセスの個々のコンポーネントの自動化において大きな進歩を遂げてきたが、構想から出版まで研究ライフサイクル全体を自律的にナビゲートするシステムはこれまで実現されていなかった。本稿では、科学プロセス全体をエンドツーエンドで自動化するパイプラインを提示する。The AI Scientistは、研究アイデアを創出し、コードを記述し、実験を実行し、データをプロットして分析し、科学論文全体を執筆し、独自のピアレビューを実施する。本システムのアイデア、実行、プレゼンテーションの品質は、このAIシステムが生成した論文がトップクラスの機械学習会議のワークショップの最初の査読ラウンドを通過するに十分な水準に達している。そのワークショップの受理率は70%であった。本システムは、複雑なエージェントシステム内でモダンな基盤モデルを活用している。The AI Scientistを2つの設定で評価した:特定トピックの研究に対して人間が提供したコードテンプレートを初期足場として使用するフォーカスモードと、より広範な科学的探索のためにエージェント的サーチを活用するテンプレートフリーのオープンエンドモードである。どちらの設定も多様なアイデアを生成し、それらを自動的にテスト・報告・評価する。この成果はAIが科学的貢献を行う能力の向上を示し、研究の実施方法における潜在的なパラダイムシフトを示唆する。他の影響力ある新技術と同様に、査読システムへの過負荷や科学文献へのノイズ追加など重要なリスクが存在する可能性がある。しかし責任を持って開発されれば、このような自律システムは科学的発見を大幅に加速できる。