> [!abstract] 概要(abstract 日本語訳) > 科学の自動化はAI研究における長年の目標である。個々のコンポーネントを自動化する進展は著しいが、構想から発表まで研究ライフサイクル全体を自律的に遂行するシステムは、これまで実現できなかった。本研究では科学プロセス全体をエンドツーエンドで自動化するパイプラインを提示する。「The AI Scientist」と名付けたこのシステムは、研究アイデアを創出し、コードを記述し、実験を実行し、データをプロットして分析し、科学論文全体を執筆し、みずから査読を行う。このAIシステムが生成した論文の創意、実行、および発表のクオリティは、採択率70%のトップ機械学習会議のワークショップで最初の査読ラウンドを通過するに十分な水準に達した。本システムは複雑なエージェントシステム内で最新の基盤モデルを活用する。The AI Scientist を2つの設定で評価した。1つは特定のトピックを研究するための初期足場として人間が提供するコードテンプレートを用いるフォーカスモード、もう1つはより広い科学的探索のためにエージェント探索を活用するテンプレート自由・オープンエンドモードである。どちらの設定も多様なアイデアを生成し、それらを自動的に検証・報告・評価する。この達成は科学的貢献を行うAIの高まる能力を示し、研究の遂行方法におけるパラダイムシフトの可能性を意味する。あらゆる影響力のある新技術と同様に重要なリスクが存在し、負荷のかかった査読システムへの過負荷や科学文献へのノイズの追加が含まれる。しかし責任ある形で開発されれば、このような自律システムは科学的発見を大幅に加速する可能性がある。 ## 論文情報 - **タイトル**: Towards end-to-end automation of AI research - **著者・所属**: - Chris Lu(共同筆頭) — Sakana AI / FLAIR, University of Oxford - Cong Lu(共同筆頭) — Sakana AI / University of British Columbia / Vector Institute - Robert Tjarko Lange(共同筆頭) — Sakana AI - Yutaro Yamada(共同筆頭・責任著者) — Sakana AI - Shengran Hu — Sakana AI / University of British Columbia / Vector Institute - Jakob Foerster — FLAIR, University of Oxford - David Ha(責任著者) — Sakana AI - Jeff Clune(責任著者) — University of British Columbia / Vector Institute - **掲載**: Nature, Vol. 651, pp. 914–919, 2026-03-26 - **DOI**: 10.1038/s41586-026-10265-5 - **受理**: 2026-02-11、オンライン公開: 2026-03-25 - **ライセンス**: CC BY 4.0 - **arXiv プレプリント**: 2408.06292(元タイトル "The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery") - **コード**: - テンプレートベース版・自動査読者: https://github.com/SakanaAI/AI-Scientist - テンプレート自由版: https://github.com/SakanaAI/AI-Scientist-v2 - **倫理承認**: University of British Columbia IRB (H24-02652) ## 概要 Sakana AI を中心とするチームが「The AI Scientist」を発表した。機械学習研究に特化したエンドツーエンドの研究自動化パイプラインであり、アイデア創出から論文執筆・査読まで全工程をLLMベースのエージェントシステムで自動化する。テンプレートベース(テンプレートコード+Aider)とテンプレート自由(ツリー探索+並列実行)の2モードで動作する。生成論文1本がILCR 2025 ICBINBワークショップの査読(採択率70%)を通過した——完全にAI生成した論文がトップ会議の正式査読プロセスを通過した初事例。 ## 問題設定 - **入力**: 機械学習研究サブフィールドの指定(テンプレートベース)またはオープンエンドな研究テーマ - **出力**: 完全な機械学習研究論文(アイデア・実験コード・図表・LaTeX 原稿・査読レポート) - **前提**: 実験が計算機上で完結するドメイン(計算実験)に限定 - **課題**: 自律生成された科学的成果を自動でスケーラブルに評価する手段の不足 → 自動査読者(The Automated Reviewer)を開発 ## 提案手法 ### アーキテクチャ全体 The AI Scientist は4段階で動作する。 **Figure 1: The AI Scientist ワークフローとスケーリング特性** ![[_attachments/s41586-026-10265-5/fig01-workflow-and-scaling.png]] (Figure 1. (a) The AI Scientist の4フェーズ構成。(b) モデル世代別の論文品質スコア——新しいモデルほど品質が向上する(P < 0.00001)。(c) 自動査読者 vs 会議採否決定の比較——人間査読者と同等の均衡精度。Source: Lu et al., Nature 651, 2026.) **フェーズ1: アイデア創出(Ideation)** LLMがユーザー指定のMLサブフィールド内で研究方向と仮説を反復的に増やしていくアーカイブを生成する。各アイデアには記述的なタイトル・根拠・実験計画・興味深さ/新規性/実現可能性の自己評価スコア(1〜10)が付く。Semantic Scholar APIと接続して既存文献との類似度が高いアイデアを自動排除する(新規性検査)。 **フェーズ2: 実験実行(Experimentation)** 2つの変形が存在する: - *テンプレートベース版*: 人間が提供するスターターコード(例: nanoGPT でシェイクスピアを学習)を Aider が逐次修正する。実験ごとにエラーを検出してAiderエージェントが自動デバッグ(4回まで再試行、タイムアウト7,200秒)。実験結果・メトリクス・図はすべて実験ジャーナルに記録される。 - *テンプレート自由版*: Aiderに依存せずLLMが初期コードを生成し、**並列化エージェントツリー探索**で探索を拡大する。 **テンプレート自由版の実験進行管理(4ステージ)** | ステージ | 目的 | 終了条件 | |------|------|------| | 1. 予備調査 | 基本実現可能性の検証 | 動作するプロトタイプが完成 | | 2. ハイパーパラメータ調整 | 最適化 | 学習曲線が収束し2データセット以上で成功 | | 3. 研究アジェンダ実行 | 中心的研究課題の探索 | 計算予算を消費 | | 4. アブレーション研究 | コンポーネント重要度の検証 | 計算予算を消費 | **ノードの種類**: - ハイパーパラメータノード: 超パラメータ空間を体系的に探索(重複を記録して排除) - アブレーションノード: 重要なアブレーション実験を実施 - 複製ノード: 異なる乱数シードで統計的ロバストネスを担保 - 集約ノード: 複製結果の集約・可視化(新実験なし) **使用モデル**(テンプレート自由版): - OpenAI o3: アイデア生成・コード批評(強い推論能力) - Anthropic Claude Sonnet 4: コード生成 - OpenAI GPT-4o: 図表の批評など視覚言語タスク - OpenAI o4-mini: 査読ステージでの効率的な推論 **Figure 3: ツリー探索の構造とスケーリング特性** ![[_attachments/s41586-026-10265-5/fig03-tree-search-compute-scaling.png]] (Figure 3. (a) 4ステージの実験進行管理と木構造の概要。(b) 実際の木探索の例——色偏り MNIST でショートカット依存を回避する手法を探索。(c) 実験ノード数(計算予算)を増やすほど論文スコアが向上する。Source: Lu et al., Nature 651, 2026.) **フェーズ3: 論文執筆(Manuscript Writing)** LaTeX 会議テンプレートを section ごとに埋める。Semantic Scholar API に 20 ラウンドのクエリを行い関連文献を検索・引用を追加。VLM(GPT-4o)が図とキャプションの整合性を審査し、フィードバックを反映して改善する。LaTeX コンパイルエラーは最大5回まで自動修正する。テンプレート自由版では推論モデル(o1)が LaTeX を直接生成し複数の反省サイクルを経る。典型的な処理時間は数時間〜15時間超。 **フェーズ4: 自動査読(Automated Review)** The Automated Reviewer は NeurIPS 査読ガイドラインに基づき論文を評価する。 - 5つの独立レビューをアンサンブルし、LLMがエリアチェアとして最終決定を下すメタレビューを生成する - 出力: 数値スコア(健全性・発表・貢献・全体・信頼度)・強み/弱みリスト・採択/却下の二値決定 ### VLM 統合 実験フェーズ中、生成した図を GPT-4o が科学者として批評する(軸ラベルの妥当性・可視化の質等)。フィードバックはツリー探索の次ノード生成に使われる。論文執筆フェーズでも図とキャプションの整合性審査に用いる。 ## 新規性 既存研究は個々のコンポーネント(仮説生成・文献レビュー・コーディング支援)を個別に自動化していたが、**構想から発表まで研究ライフサイクル全体を単一パイプラインで自律実行するシステム**は本研究が初。特に: 1. テンプレート自由版の並列化エージェントツリー探索により、エラー検出→デバッグ→絞り込みをオープンエンドに実行できる 2. 自動査読者が実際の会議採否決定を人間レベルで予測できる → 大規模な品質評価が可能になった ## 実験設定 - **テンプレートベース実験**: nanoGPT + シェイクスピア/enwiki8/text8データセット - **テンプレート自由実験**: Crop Pest and Disease Detection / Waterbirds / CelebA / HuggingFace Hub 上のデータセット - **自動査読者評価**: OpenReview の公開 ICLR データセット(知識カットオフ前 1,000 本: 2017–2024 / カットオフ後 1 年: 2025) - **ヒューマン査読実験**: ICLR 2025 ICBINB ワークショップ(採択率 70%)に 3 論文を投稿 ## 実験結果 ### 自動査読者 vs 人間査読者(Table 1) | 査読者 | 均衡精度 | F1 スコア | AUC | |------|------|------|------| | 人間(NeurIPS) | 0.66 | 0.49 | 0.65 | | 自動査読者(2017–2024) | **0.69 ± 0.04** | **0.62 ± 0.09** | 0.69 ± 0.09 | | 自動査読者(2025) | 0.66 ± 0.03 | 0.67 ± 0.09 | 0.65 ± 0.10 | - 均衡精度で人間を上回り(69% vs 66%)、F1 スコアは大幅に上回る(0.62 vs 0.49) - 知識カットオフ後(2025)でも 66%を維持 → データ汚染の影響は軽微 ### モデル世代スケーリング 基盤モデルの世代(2023年7月〜2025年7月)と論文品質スコアに強い正相関(R² = 0.517, P < 0.00001)。テンプレートベース版・テンプレート自由版ともに同傾向。 ### 計算量スケーリング 実験ノード数を増やすほど論文スコアが向上する(Fig. 3c)。n=5→n=30 でスコアが 3.3→3.9 に向上。 ### ヒューマン査読実験 ICLR 2025 ICBINB ワークショップに 3 本提出(全 43 本中)。査読者はAI生成論文が含まれることは知っているが、どの論文かは不明の二重盲検。 **Figure 2: 査読を通過したAI生成論文の抜粋** ![[_attachments/s41586-026-10265-5/fig02-accepted-paper-example.png]] (Figure 2. ワークショップで採択基準を超えたAI生成論文のタイトル・Abstract・手法・図表・参考文献の抜粋。スコアは6(weak accept) / 7(accept) / 6(weak accept)、平均6.33。Source: Lu et al., Nature 651, 2026.) - 3本中1本がスコア 6.33(採択基準を超過)、上位 45% に位置 - 採択された論文はネガティブ結果を報告(ワークショップのテーマに沿う) - 事前プロトコルに従い、結果に関わらず査読後に全論文を取り下げ - 採択されたが、社内評価ではメイン会議基準には未達 ## 考察 - 完全AI生成論文がトップ機械学習会議の正式査読を通過した初の事例として歴史的なマイルストーン - モデル改善・計算コスト低下が継続する限り、システム性能は指数的に向上する可能性がある(AI がこなせるタスクの長さは7か月ごとに倍増 [Kwa et al., 2025]) - 現時点では計算実験に限定されるが、将来は自動化化学実験室など他分野への展開が想定される ## 強み / 弱点・課題 **強み** - エンドツーエンドの完全自動化 — 人間介入なしに論文を生成し査読プロセスを通過 - モデル世代・計算量の両軸でスケーリングする - 自動査読者が独立した品質評価指標として機能し、大規模評価を可能にする - CC BY のオープンアクセス・コードも公開 → 再現可能 **弱点・課題** - 一貫性の欠如: 3本中1本のみ採択、ワークショップレベルでも不安定 - よくある失敗モード: 稚拙なアイデア・実装エラー・方法論的厳密性の欠如・図表重複・不正確な引用(ハルシネーション) - メイン会議(採択率 32%)の基準にはほど遠い - 創造的な概念的飛躍をAIが生み出せるかは不明 - 計算実験限定 — 物理・化学実験や野外調査は対象外 **倫理的懸念** - 査読システムへの過負荷 - 研究資格詐称の可能性 - 他者アイデアの無断流用 - 科学者職の喪失 - 危険または非倫理的な実験の自動実施 → 著者はIRB承認・会議との事前協力・査読後の全論文撤回を実施し、科学コミュニティが開示・評価基準を確立するまで完全自動研究の発表を控えることを推奨。