LLMドリブンコード探索 - yuuk1's Digital Garden

# LLM ドリブンコード探索 ## 定義 LLM ドリブンコード探索とは、大規模言語モデル（LLM）を「コード突然変異演算子」として使い、品質スコアを最大化するコード候補を体系的に探索する技法の総称である。LLM が既存コードを書き直して子候補を生成し、木探索（主に UCB/PUCT 系のアルゴリズム）が探索と利用のバランスを取りながらどの候補を展開するかを決定する。評価は実際にコードを実行して品質スコアを得ることで行われ、スコアのフィードバックが次の LLM プロンプトに流れ込む閉ループを形成する。代表実装として ERA（Empirical Research Assistance）(Source: [[@2026__Nature__An AI system to help scientists write expert-level empirical software]])、FunSearch（数学的発見）、AlphaEvolve（針の穴探索）がある。遺伝的プログラミング（GP）の現代的 LLM ベース実現形態と位置づけられる。 ## 既存手法との関係 | 手法 | 突然変異演算子 | 探索戦略 | 主対象 | |---|---|---|---| | 遺伝的プログラミング（GP） | ランダム変異・構文木交叉 | 進化アルゴリズム | 構造化プログラム空間 | | AutoML | 超パラメータサンプリング | ベイズ最適化 | ML パイプライン | | FunSearch | LLM（コード提案） | 島モデル進化 | 数学的関数 | | AlphaEvolve | LLM（コード書き換え） | 進化的ループ | 離散探索問題 | | **ERA** | **LLM（コード書き換え）** | **PUCT 木探索** | **科学的経験ソフトウェア全般** | | AIDE | LLM | ツリーサーチ | データサイエンスタスク | ERA の特徴：①PUCT（ランク変換 UCB）でタスク間の `c_puct` を統一、②外部研究アイデア注入・再結合の明示的サポート、③ロールアウト不要（LLM サンプリングの確率的性質を自然な探索に利用）。(Source: §Discussion—Combining LLMs and Search, §Methods—Code mutation system, [[@2026__Nature__An AI system to help scientists write expert-level empirical software]]) ## 横断的知見 - （1 ソース目。複数ソースの突き合わせで見えた観察をここに蓄積する） - ERA の実験（Table 1）では、Best-of-N=1000 との比較で、バッチ統合・疫学の 2 タスクにわたり 5 種の LLM（Gemini 2.5 Flash・Mistral Medium・Claude Sonnet 4.6・GPT-5・Gemini 3.1 Pro）ほぼ全てで ERA が BoN を上回った。これは「LLM 推論コストを無秩序に増やすより、木探索で探索を構造化する方が品質向上に有効」という命題の実証的根拠となる。ただし GPT-5 × バッチ統合のみ BoN が僅差で ERA を超えた（0.6740 vs 0.6671）例外がある。(Source: Table 1, [[@2026__Nature__An AI system to help scientists write expert-level empirical software]]) ## 未解決の問い - PUCT の探索定数 `c_puct = 1` は Kaggle ベンチマークでのチューニング結果。スコア分布が大きく異なるタスク（負のスコア・確率的評価・複数目標）への汎化性はどの程度か。 - ロールアウト不使用は AlphaZero との大きな差異だが、LLM サンプリングの確率的性質がロールアウトの代替として機能しているという仮説は定量的に検証されているか。 - 外部アイデアの選択・優先付けを自動化する方法（現在は人手またはリスト全件試行）が研究フロンティアか。 - FunSearch・AlphaEvolve との直接比較実験（同一タスク・同一計算量）が未実施。ERA の有利条件（科学ドメイン）と不利条件（純数学）はどこか。 - スコアが多目標・非単調・非連続な場合にどのアルゴリズム変形が有効か。 ## 関連 - [[コードLLM]] — LLM ドリブンコード探索の基盤となるコード生成 LLM - [[スコアリング可能タスク]] — このパラダイムの適用条件を定義する概念 - [[エージェント型コーディング]] — 関連するエージェント型ソフトウェア開発自動化 - [[LLMによる根本原因分析]] — LLM を科学・運用タスクに適用する横断概念 - [[structures/Systems for ML - MOC]] — ML システム設計の関連 MOC ## 出典 - [[@2026__Nature__An AI system to help scientists write expert-level empirical software]] — ERA の PUCT 木探索実装、Kaggle ベンチマーク、Best-of-N 比較（Table 1）