# An AI system to help scientists write expert-level empirical software
> [!abstract] 概要(arXiv:2509.06503 abstract の日本語訳)
> 科学的発見のサイクルは、計算実験を支えるソフトウェアの手作業による遅い作成によってしばしばボトルネックとなっている。これに対処するため、われわれは Empirical Research Assistance(ERA)を提案する。ERA は品質指標を最大化することを目標とするエキスパートレベルの科学ソフトウェアを生成する人工知能(AI)システムである。このシステムは大規模言語モデル(LLM)と木探索(TS)を用いて品質指標を体系的に改善し、可能な解の広大な空間を知的にナビゲートする。ERA は外部ソースからの複雑な研究アイデアを探索・統合することでエキスパートレベルの結果を達成する。木探索の有効性は多様なタスクに渡って実証されている。バイオインフォマティクスでは ERA が単一細胞データ解析のための 40 の新手法を発見し、公開リーダーボード上の最高人手開発手法を上回った。疫学では ERA が COVID-19 入院患者数の予測において CDC アンサンブルおよびすべての個別モデルを上回る 14 のモデルを生成した。ERA はさらに地理空間解析、ゼブラフィッシュ神経活動予測、数値積分分野でエキスパートレベルのソフトウェアを生み出し、時系列予測のための新規ルールベース手法も開発した。ERA は多様なタスクに対して新規解法を考案・実装することで、科学的進歩の加速に向けた顕著な一歩を示す。
## 論文情報
- **タイトル**: An AI system to help scientists write expert-level empirical software
- **著者**: Eser Aygün\*, Anastasiya Belyaeva\*, Gheorghe Comanici\*, Marc Coram\*, Hao Cui\*, Jake Garrison\*, Renee Johnston\*, Anton Kast\*, Cory Y. McLean\*, Peter Norgaard\*, Zahra Shamsi\*, David Smalling\*, James Thompson\*, Subhashini Venugopalan\*, Brian P. Williams\* ほか(\*equal contribution, alphabetical)
- **責任著者**: Shibl Mourad([[DeepMind]])、[[Michael P. Brenner]]([[Google Research]] / [[Harvard University]])
- **所属**: [[DeepMind|Google DeepMind]](モントリオール)、[[Google Research]](ケンブリッジ MA)、[[Google]] Platforms and Devices(マウンテンビュー)、MIT、Harvard、McGill、Caltech
- **発表媒体**: Nature, Vol. 654, Issue 8120(2026 年 6 月号)
- **オンライン公開**: 2026-05-19
- **arXiv**: arXiv:2509.06503(v3、2026-05-21。原初投稿 2025-09-08)
- **DOI**: 10.1038/s41586-026-10658-6
- **コード**: 公式 URL 未確認
## 概要
ERA(Empirical Research Assistance)は LLM とモンテカルロ木探索(PUCT バリアント)を組み合わせ、品質指標を最大化するコードを自動生成・反復改善するシステムである。「スコアリング可能タスク」という枠組みで科学的ソフトウェア開発を定義し、外部の研究アイデア(論文 PDF・Deep Research・AI co-scientist 等)を注入することでエキスパートレベルの解を大規模に探索する。Nature 誌への掲載(2026 年 6 月号)は、バイオインフォマティクス・疫学など複数の科学分野で人手の最高水準を超えたという主張を含む点で先例がない。(Source: arXiv:2509.06503, §Abstract, §Introduction)
**Figure 1: ERA のアルゴリズム概要・Kaggle 性能・研究アイデア統合の 3 要素**
![[_attachments/arxiv-2509.06503/fig01-era-schematic.png]]
(Figure 1a. スコアリング可能問題 + 研究アイデアが LLM に渡り、コードサンドボックスでのスコア評価を木探索で反復する ERA アルゴリズム全体像。Figure 1b. Kaggle プレイグラウンド 16 タスク平均パーセンタイル:Single Sample 約 35% → Best-of-1000 約 50% → AIDE 約 57% → ERA-TS 約 65% → TS with Expert/BDT 約 70%。Figure 1c. 研究アイデアの調達経路:専門家の手書き・論文サマライズ・アイデア再結合・Gemini Deep Research。Source: Adapted from Figure 1, arXiv:2509.06503.)
## 問題設定
- **入力**: スコアリング可能タスク(品質スコアを数値で返す評価関数)+ オプションの研究アイデア(テキスト)
- **出力**: スコアを最大化する Python コード
- **前提**: コードはサンドボックス(隔離された実行環境)で実行可能;品質スコアはスカラー;外部アイデアは LLM プロンプトに自由テキストで注入できる
- **スコアリング可能タスク** とは:入力・出力・評価指標が機械判定可能なタスク全般。論文では 1 細胞 RNA シーケンシングのバッチ統合(OpenProblems v2.0.0)・COVID-19 入院患者予測(CovidHub)・時系列予測(GIFT-Eval)・衛星画像セグメンテーション・ゼブラフィッシュ神経活動予測(ZAPBench)・数値積分の 6 タスクを評価した。(Source: §Overview of Scorable Tasks, §Results)
## 提案手法
### アーキテクチャ
ERA の核心は **LLM × PUCT 木探索** のループである。
1. **初期ノード**: タスク説明+評価コード+研究アイデアのプロンプトをLLMに与え、コード候補(ルートノード)を生成・実行・スコア付け
2. **ノード選択(PUCT)**: 全ノードから PUCT スコア `PUCT_i = rank_score_i + c_puct × E(i)` が最大のノードを選択。`E(i)` は全体訪問数と個別訪問数の比に基づく探索項。`c_puct = 1` に固定(Kaggle ベンチマークでチューニング)
3. **展開**: 選択ノードのコードを LLM に再書き込みさせ、子ノードとして追加
4. **バックプロパゲーション**: 祖先ノードの訪問数を更新
5. **終了**: 300〜1000 ノードでスコアが飽和(タスク依存)
AlphaZero との主な差異:全ノードからフラットに選択(ルートから再帰しない)・ロールアウトなし・スコアのランク変換で `c_puct` のタスク間移植性を確保。(Source: §Methods—Code mutation system, Algorithm 1)
### アルゴリズム詳細(PUCT)
```
Select u* = argmax_{u in T} [ RankScore_T(u) + c_puct * P_T(u) * sqrt(N_total) / (1 + V(u)) ]
RankScore_T(u) = (Rank_T(u) - 1) / (|T| - 1), if |T| > 1, else 1
P_T(u) = 1 / |T| (flat prior)
```
ランクスコアへの変換がタスク固有スコアの正規化を担い、同じ `c_puct = 1` を全タスクに適用できる。(Source: §Methods, Algorithm 1)
### 研究アイデアの統合
論文は 4 つのアイデア供給経路を評価した(Figure 1c):
- **専門家の直接注入**: 問題ドメインの既知アドバイスを手書きで追加(Kaggle ベンチマークで TS+Expert 手法)
- **論文 PDF サマライズ**: Gemini 2.5 Pro に PDF の要旨を 1 段落にサマライズさせてプロンプトへ追加
- **アイデア再結合**: 2 手法のコードサマリーを LLM で合成し、ハイブリッド手法の説明文を生成してプロンプトに注入
- **自動文献探索**: Gemini Deep Research・AI co-scientist で新規アイデアを生成して注入
**Figure: BBKNN 木探索の探索ツリー可視化**
![[_attachments/arxiv-2509.06503/fig-tree-structure.png]]
(Extended Data Figure 2. scRNA-seq バッチ統合の最高性能手法 BBKNN (TS) の木探索ツリー。各ノードが 1 つのコード候補に対応し、色分けはスコア帯を示す。探索が広大な解空間をどのように枝分かれ・バックトラックするかを可視化。Source: Adapted from Extended Data Figure 2, arXiv:2509.06503.)
## 新規性
既存手法との差異:
- **FunSearch・AlphaEvolve** との対比:FunSearch は進化的アルゴリズムで LLM が「関数」レベルの数学的探索を行う。AlphaEvolve はエージェント的な進化的コーディングループで「針の穴を通す」型探索を重視。ERA は研究アイデアの外部注入と再結合を核として**科学ドメイン全般**の経験的ソフトウェアに適用する点で独自。
- **AutoML** との差異:AutoML はMLパイプラインの超パラメータ最適化が主眼。ERA はコード全体(前処理・シミュレーション・数理ヒューリスティクス)を書き換え、外部アイデアを取り込む点が異なる。
- **Best-of-N** との対比:Table 1 の実験で、全 LLM(Gemini 2.5 Flash・Mistral Medium・Claude Sonnet 4.6・GPT-5・Gemini 3.1 Pro)において ERA は同一 N = 1000 の Best-of-N を上回った(バッチ統合:全 5 モデルで ERA > BoN;疫学:全 5 モデルで ERA < BoN の WIS、つまり ERA が優れる)。(Source: §Discussion, Table 1)
## 実験設定
| タスク | ベンチマーク | 評価指標 | データ規模 |
|---|---|---|---|
| scRNA-seq バッチ統合 | OpenProblems v2.0.0(2025 年 7 月時点 15 手法) | 総合スコア(13 指標平均) | 1,747,937 細胞、6 データセット |
| COVID-19 入院予測 | CDC CovidHub 2024–25 シーズン | WIS(加重区間スコア) | 52 管轄区域、4 週先予測 |
| 時系列予測 | GIFT-Eval(28 データセット) | MASE(正規化平均絶対スケール誤差) | 秒〜年の周波数帯 |
| 衛星画像セグメンテーション | 非公開(Supplementary Notes) | — | — |
| 神経活動予測 | ZAPBench(ゼブラフィッシュ全脳 70,000+ ニューロン) | — | — |
| 数値積分 | 自作タスク(難解積分) | — | — |
主な比較対象:LLM への Single Sample・Best-of-N=1000・AIDE(既存コーディングエージェント)、各ドメインの既存 SOTA 手法。実験に使用したモデルは主に Gemini 2.5 Flash(全実験)、一部 Gemini 2.5 Pro と複数 LLM 比較(Table 1)。(Source: §Methods, §Results)
## 実験結果
### scRNA-seq バッチ統合
ERA が生成した 87 手法のうち 40 手法が 2025 年 7 月時点の OpenProblems リーダーボード全手法を上回った(ベース手法 6/11、再結合 29/55、Deep Research 4/9、AI co-scientist 1/12)。最高性能は BBKNN (TS)(ComBat 補正 PCA 埋め込みを BBKNN に適用するアイデア再結合)で、公開 ComBat より 14% 高い総合スコアを達成。(Source: Figure 2d, §scRNA-seq Batch Integration)
**Figure 2: scRNA-seq バッチ統合の性能比較**
![[_attachments/arxiv-2509.06503/fig02-scrna-seq-results.png]]
(Figure 2b. 13 指標・6 データセットに渡る手法比較バブルチャート。ERA(TS) 手法(太字)が対応公開手法を一貫して上回る。Figure 2d. 87 手法の総合スコア棒グラフ:再結合(TS) が全体の上位を占め、ベース手法(TS)・Deep Research(TS)が続く。Source: Adapted from Figure 2, arXiv:2509.06503.)
**Figure: BBKNN ブレークスループロット(スコアの段階的改善)**
![[_attachments/arxiv-2509.06503/fig-bbknn-breakthrough.png]]
(Extended Data Figure 2b. BBKNN (TS) の木探索における総合スコアの進化。ノード評価数 0→500 の過程で、バッチ平均補正・ComBat バッチ補正への置換という 2 つのブレークスルーで 0.53→0.655 へスコアが段階的に向上。Source: Adapted from Extended Data Figure 2, arXiv:2509.06503.)
### COVID-19 入院患者予測
ERA の「Google Retrospective」モデルは 2024–25 シーズン全体で WIS 平均 26 を達成し、CovidHub アンサンブル(WIS 29)を上回った。再結合 10 手法・Deep Research 2 手法・AI co-scientist 1 手法・ベース 1 手法の計 14 戦略がアンサンブルを超えた(3 週間評価期間、52 管轄)。(Source: Figure 3e, §COVID-19 Forecasting)
**Figure 3: COVID-19 入院予測の包括的結果**
![[_attachments/arxiv-2509.06503/fig03-covid19-forecasting.png]]
(Figure 3a. ローリング検証ウィンドウ(青: 検証、橙: 予測期間)。Figure 3b. 参加チームと Google Retrospective の週次 WIS ヒートマップ(青=CovidHub アンサンブル比 良い、赤=悪い)。Figure 3c. 管轄別 WIS 散布図(Google Retrospective が大半の管轄で優位)。Figure 3d. 米国 WIS 地理分布。Figure 3e. 87 手法の集合比較棒グラフ。Source: Adapted from Figure 3, arXiv:2509.06503.)
### 時系列予測(GIFT-Eval)
- **データセット別解**: 各データセット独立で ERA を走らせた結果、2025 年 5 月 18 日リーダーボード全手法(基盤モデル・深層学習・標準時系列手法を含む)を上回った
- **統一解**: 単一汎用ライブラリを標準 Python ライブラリのみで構築。適応型設定システム(8 プリセット構成)で GIFT-Eval 多様性に対処。日付・トレンド特徴量の発見が主要ブレークスルー。2025 年 5 月リーダーボードで競争力のある成績を記録。(Source: §GIFT-Eval, Extended Data Figure 8)
### 木探索 vs Best-of-N(Table 1)
| LLM | バッチ統合 BoN | バッチ統合 ERA | 疫学 BoN WIS | 疫学 ERA WIS |
|---|---|---|---|---|
| Gemini 2.5 Flash | 0.6306 | **0.6552** | 106.55 | **93.07** |
| Mistral Medium | 0.6129 | **0.6332** | 95.73 | **87.98** |
| Claude Sonnet 4.6 | 0.6502 | **0.6575** | 85.03 | **84.56** |
| GPT-5 | 0.6740 | **0.6671**† | 78.04 | **74.55** |
| Gemini 3.1 Pro | 0.6461 | **0.6641** | 92.39 | **72.70** |
†バッチ統合のみ GPT-5 は BoN が ERA をわずかに上回る(0.6740 vs 0.6671)。疫学では全 LLM で ERA が優れる。(Source: Table 1, §COVID-19 Forecasting)
## 考察
- **なぜ木探索が Best-of-N を上回るか**: TS は高スコア候補を起点に局所改善を積み重ねながら多様なブランチを維持できる。BoN は独立サンプルのため探索が最初から必ずし共有されない。探索の「蓄積」が TS の優位性の源泉。(Source: §Discussion)
- **アイデア注入の重要性**: 再結合(ペア網羅的合成)が単一手法 TS より高頻度で優れる(バッチ統合では 55 再結合中 24 が両ベース手法を上回り、31 のうち 22 がどちらか一方を超えた)。外部アイデアなしでも SOTA 水準に達するが、アイデア付きでさらに性能が向上。(Source: §scRNA-seq batch integration)
- **安全上のリスク**: LLM ベースの科学ソフトウェア自動生成は、技術的専門知識のハードルを下げ、有益な科学を加速する一方で、悪意ある目的や高度な計算タスクへの悪用リスクを伴う(論文は「インファレンス時計算と基盤モデル品質の組み合わせがもたらす全体的なリスク」と表現)。(Source: §Discussion—Safety)
- **限界**: ゲームのような完全列挙可能な空間ではなく、オープンエンドなコード空間が対象のためロールアウト評価なし;スコアが機械的に定義されない科学的発見(理論・因果推論)は直接対象外;論文が強調するように「経験的ソフトウェア最適化」と「真の科学的発見」は区別が必要。(Source: §Discussion)
## 強み / 弱点・課題
**強み**:
- 複数の実際のベンチマーク(OpenProblems・CovidHub)でエキスパートを凌駕した最初のシステムと主張
- ドメイン非依存(バイオインフォマティクス・疫学・地理空間・神経科学・数値解析に適用)
- アイデア注入の柔軟性(手書き・論文・再結合・AI生成)
- 木探索がコードの段階的改善(ブレークスルー発見)を可能にする
**弱点・課題**:
- スコアを機械的に定義できない問題(理論・哲学・社会科学)は適用外
- 各タスクで数百〜数千ノードの LLM 推論を要し、計算コストが高い(Supplementary Table S1 に記載)
- コードが正しく手法の意図を実装しているかの確認はまだ人手検査に依存(論文では人手で実装忠実度を確認)
- 外部アイデアの品質・選択にシステム性能が依存する点は未自動化の部分がある
## 関連
- [[LLMドリブンコード探索]] — 本論文が具体実装を提供する中核概念
- [[スコアリング可能タスク]] — ERA の設計を支える科学タスクの抽象化
- [[コードLLM]] — コード生成 LLM の基盤概念(DeepSeek-Coder ほか)
- [[エージェント型コーディング]] — 関連する自律コーディングエージェントの概念
- [[LLMによる根本原因分析]] — LLM を科学・運用タスクに適用する横断概念
- [[structures/Systems for ML - MOC]] — ML システム設計の関連 MOC