エージェント型コーディング

# エージェント型コーディング ## 定義 LLM をエージェントとして環境（コードベース + 隔離コンテナ）内に配置し、ツール呼び出し（ファイル読み書き・シェル実行・検索・ウェブ検索）を通じてリポジトリを自律的に探索・修正するソフトウェア工学の取り組み。プロンプト $x$ と環境に対し、エージェントは一連の行動 $a_1, \ldots, a_T$ を生成して環境の最終状態を変更し、コードの正しさ・簡潔さ・ソフトウェア工学の原則への適合で報酬を受ける。オートコンプリート → チャット型アシスタント → 自律エージェントへの進化の最新段階にあたる。(Source: [[@2026__arXiv__Composer 2 Technical Report]] §2) ## 横断的知見 - **ドメイン特化 RL がフロンティア汎用モデルと競争力を持つ**: [[Composer 2]] は 1.04T / 32B アクティブの MoE モデルを継続事前学習 + RL で訓練し、CursorBench で GPT-5.4（63.9）に近い 61.3、SWE-bench Multilingual で 73.7 を達成する。一方 [[DeepSWE]] は汎用 32B モデル（Qwen3-32B）を SFT なしの純粋 RL のみで訓練し、SWE-Bench-Verified 42.2%（Pass@1）を達成する。前者は「強いベースモデル + ドメイン特化事前学習 + RL」、後者は「汎用ベースモデル + 純粋 RL」という異なる経路でフロンティアに到達しており、ドメイン知識の注入方法が実効的な設計選択であることを示す。(Source: [[@2026__arXiv__Composer 2 Technical Report]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]]) - **RL の best-of-K 性能改善に関する対照的知見**: Composer 2 は RL 訓練期間を通じて平均性能と best-of-K 性能の双方が改善し、「RL は既知推論パスの確率再配分にすぎない」という懸念を否定する。DeepSWE も Pass@1 からテスト時 Best@16 で 42.2%→59.0% と大幅なテスト時スケーリング利得を示す。[[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] のサーベイ（§6.4）が整理する「増幅器 vs 新知識」論争において、コーディングエージェントのドメインでは「新知識」側の証拠が蓄積されつつある。(Source: [[@2026__arXiv__Composer 2 Technical Report]] 図 5, [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] §6.4) - **訓練—テスト環境の一致が設計の中心原則**: Composer 2 は「実際の Cursor セッションを模倣する環境で訓練する」ことを核心原則とし、本番と同一のツール・ハーネスを RL 環境に持ち込む。DeepSWE も R2E-Gym 環境をそのまま使用する。エージェント型 RL の訓練環境忠実度がベンチマーク精度よりも実世界性能を律速するという構造は、AIOps 領域の [[SREGym]]・[[AIOpsLab]] が「ライブ環境での評価」を追求するのと同型の設計思想である。(Source: [[@2026__arXiv__Composer 2 Technical Report]] §4, §6.2, [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]]) - **コード特化事前学習の品質がエージェント基盤モデルの天井を規定する**: [[DeepSeek-Coder]] は 6.7B モデルで 5 倍大きい CodeLlama 34B を上回り、リポジトリレベルのデータ構築と品質スクリーニングがモデル規模を補いうることを示した。エージェント型コーディングの基盤モデルにとって、コードコーパスの構造的品質（ファイル間依存の学習）は、パラメータ規模のスケールアップと同等以上に重要な設計変数である可能性がある。DeepSWE が Qwen3-32B を、Composer 2 が独自 MoE を基盤とする設計選択と合わせると、「どの基盤モデルをどう訓練するか」がエージェント性能の主要な分岐点となっている。(Source: [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2026__arXiv__Composer 2 Technical Report]]) - **本番接地型ベンチマークが「訓練-テスト環境一致」原則の評価側への拡張を実現**: [[DODO]] は Datadog Continuous Profiler の CPU プロファイルと Live Debugger の実関数呼び出し(引数・受信オブジェクト状態)を組み合わせ、本番プロファイルと ≥98% 類似するマイクロベンチマークを生成する。NormalizeTags の事例では入力タグ 25% が大文字という本番固有の分布がベンチマークに保存されており、エージェントはこの比率に有効性が依存する高速 ASCII 折り畳みパスを発見した。合成ベンチマークではこの最適化機会は不可視となる。成熟した内部 Go サービスに適用してサービス全体 CPU コストを 8% 以上削減(O(10k) コア常時節約)。Composer 2・DeepSWE が「本番と同一環境で訓練する」ことを核心原則とするのと同型の設計思想をベンチマーク生成側に持ち込んだ事例として注目に値する。(Source: [[@2026__Datadog__Production-Grounded Benchmarks for AI Code Optimization]]) - **コーディングエージェントの検索は「証拠密度最大化」として再解釈できる**: Dai らは、リポジトリ規模の探索では同名シンボル・古いユーティリティ・継承構造が hard distractor となり、階層的ローカライゼーション、構文対応のリポジトリ地図、呼び出しグラフ、テスト実行がノイズ除去機構になると整理する。これは Composer 2 や DeepSWE が重視するツール環境忠実度と接続し、コーディングエージェントの性能は「強いモデル」だけでなく、コード検索・文脈圧縮・実行検証の連鎖で証拠密度をどこまで高めるかに依存する。(Source: [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]], [[@2026__arXiv__Composer 2 Technical Report]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]]) - **反復フィードバックの効果はエージェント型コーディング全般に共通するが、活用度はモデルで大きく異なる**: クロス ISA ビルド修復ベンチマーク [[Build-bench]] は、ツール利用・反復フィードバックなしの Bare-LLM 単発ベースラインに対し、エージェント型環境下で GPT-5 の成功率が 10.3 倍(6.13%→63.19%)に改善することを示す。一方 Claude Sonnet 4.5 は 3 反復を通じてほぼ性能が変化せず(初回反復以降、更新された文脈を再解釈せず同じ軌跡を繰り返す)、DeepSWE のテスト時スケーリング利得(Pass@1→Best@16 で 42.2%→59.0%)とは対照的にモデル依存で反復活用能力に大きな差があることを示す。ツール環境忠実度(Composer 2・DeepSWE の核心原則)だけでなく、モデル自身の「フィードバック再解釈能力」がエージェント型コーディングの実効性能を左右する追加軸であることが、ドメインをまたいで(SWE-bench 系のコード生成 vs クロス ISA ビルド修復)確認できる。(Source: [[@2026__nkcs.iops.ai__Can Language Models Go Beyond Coding - Assessing the Capability of Language Models to Build Real-World Systems]] §4.4, [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]]) ## 未解決の問い - **本番接地型ベンチマークの収束保証と汎化**: [[DODO]] の ≥98% プロファイル類似度目標は Go サービスで検証済みだが、Python・JVM 系・Rust 等での実引数キャプチャ複雑性、時間経過による入力分布シフト後の有効性、ベンチマーク生成が収束しないケースのハンドリングは未検証。本番接地型ベンチマーク生成の一般理論は未構築。(Source: [[@2026__Datadog__Production-Grounded Benchmarks for AI Code Optimization]]) - Composer 2 の CursorBench は内部ベンチマークであり外部再現が不可能である。コーディングエージェントの実世界性能を測る第三者検証可能なベンチマーク設計はどうあるべきか。SWE-bench のデータ汚染問題と CursorBench の非公開問題は表裏一体であり、動的に更新され外部評価も受け入れるベンチマークの枠組みが必要になる。(Source: [[@2026__arXiv__Composer 2 Technical Report]] §5) - 継続事前学習のコードベースパープレキシティと下流 RL 報酬の対数線形相関が、他のドメイン特化（例: SRE エージェント・時系列予測エージェント）でも成立するか。ドメイン特化事前学習→RL の 2 段パイプラインの汎用性が未検証。(Source: [[@2026__arXiv__Composer 2 Technical Report]] §3, 図 2) - コーディングエージェントのタスクホライズン拡大（数時間の人間作業に相当するタスク）に対し、自己要約機構のスケーラビリティ限界はどこにあるか。Composer 2 は自己要約で対応するが、情報損失の累積が長期タスクでの性能を制約しうる。(Source: [[@2026__arXiv__Composer 2 Technical Report]] §8) - リポジトリ地図や構文スライスは文脈密度を上げる一方、実装詳細を落としすぎると根本原因の局所的手掛かりを失う。コード検索で「要約・スケルトン・原文」のどの粒度をいつ切り替えるべきか。(Source: [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]]) - Claude Sonnet 4.5 が Build-bench で示した「反復フィードバックをほぼ活用しない」挙動は、他のコーディングエージェントベンチマーク(SWE-bench 系)でも再現するのか、あるいはクロス ISA ビルド修復という特定ドメイン・ツール構成に固有の現象か切り分けが必要。(Source: [[@2026__nkcs.iops.ai__Can Language Models Go Beyond Coding - Assessing the Capability of Language Models to Build Real-World Systems]] §4.4) ## 関連 - [[エージェント型強化学習]] — コーディングエージェントの RL 訓練手法 - [[強化ファインチューニング]] — RFT の一般理論 - [[強化学習スケーリング]] — RL 計算量のスケーリング則 - [[agentic SRE]] — SRE ドメインのエージェント型自動化（同型の設計思想） - [[本番接地型ベンチマーク]] — コード最適化エージェント評価を本番テレメトリで接地する設計原則([[DODO]]) - [[自動ビルド修復]] — クロス ISA ビルド修復に特化したエージェント型コーディングの一分野([[Build-bench]]) - [[クロスISAマイグレーション]] — Build-bench が対象とする具体的な失敗ドメイン ## 出典 - [[@2026__arXiv__Composer 2 Technical Report]] - [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]] - [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] - [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]] - [[@2026__SIGIR__LLM-Oriented Information Retrieval - A Denoising-First Perspective]] - [[@2026__Datadog__Production-Grounded Benchmarks for AI Code Optimization]] - [[@2026__nkcs.iops.ai__Can Language Models Go Beyond Coding - Assessing the Capability of Language Models to Build Real-World Systems]]