# エージェント型コーディング ## 定義 LLM をエージェントとして環境(コードベース + 隔離コンテナ)内に配置し、ツール呼び出し(ファイル読み書き・シェル実行・検索・ウェブ検索)を通じてリポジトリを自律的に探索・修正するソフトウェア工学の取り組み。プロンプト $x$ と環境に対し、エージェントは一連の行動 $a_1, \ldots, a_T$ を生成して環境の最終状態を変更し、コードの正しさ・簡潔さ・ソフトウェア工学の原則への適合で報酬を受ける。オートコンプリート → チャット型アシスタント → 自律エージェントへの進化の最新段階にあたる。(Source: [[@2026__arXiv__Composer 2 Technical Report]] §2) ## 横断的知見 - **ドメイン特化 RL がフロンティア汎用モデルと競争力を持つ**: [[Composer 2]] は 1.04T / 32B アクティブの MoE モデルを継続事前学習 + RL で訓練し、CursorBench で GPT-5.4(63.9)に近い 61.3、SWE-bench Multilingual で 73.7 を達成する。一方 [[DeepSWE]] は汎用 32B モデル(Qwen3-32B)を SFT なしの純粋 RL のみで訓練し、SWE-Bench-Verified 42.2%(Pass@1)を達成する。前者は「強いベースモデル + ドメイン特化事前学習 + RL」、後者は「汎用ベースモデル + 純粋 RL」という異なる経路でフロンティアに到達しており、ドメイン知識の注入方法が実効的な設計選択であることを示す。(Source: [[@2026__arXiv__Composer 2 Technical Report]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]]) - **RL の best-of-K 性能改善に関する対照的知見**: Composer 2 は RL 訓練期間を通じて平均性能と best-of-K 性能の双方が改善し、「RL は既知推論パスの確率再配分にすぎない」という懸念を否定する。DeepSWE も Pass@1 からテスト時 Best@16 で 42.2%→59.0% と大幅なテスト時スケーリング利得を示す。[[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] のサーベイ(§6.4)が整理する「増幅器 vs 新知識」論争において、コーディングエージェントのドメインでは「新知識」側の証拠が蓄積されつつある。(Source: [[@2026__arXiv__Composer 2 Technical Report]] 図 5, [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] §6.4) - **訓練—テスト環境の一致が設計の中心原則**: Composer 2 は「実際の Cursor セッションを模倣する環境で訓練する」ことを核心原則とし、本番と同一のツール・ハーネスを RL 環境に持ち込む。DeepSWE も R2E-Gym 環境をそのまま使用する。エージェント型 RL の訓練環境忠実度がベンチマーク精度よりも実世界性能を律速するという構造は、AIOps 領域の [[SREGym]]・[[AIOpsLab]] が「ライブ環境での評価」を追求するのと同型の設計思想である。(Source: [[@2026__arXiv__Composer 2 Technical Report]] §4, §6.2, [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]]) - **コード特化事前学習の品質がエージェント基盤モデルの天井を規定する**: [[DeepSeek-Coder]] は 6.7B モデルで 5 倍大きい CodeLlama 34B を上回り、リポジトリレベルのデータ構築と品質スクリーニングがモデル規模を補いうることを示した。エージェント型コーディングの基盤モデルにとって、コードコーパスの構造的品質(ファイル間依存の学習)は、パラメータ規模のスケールアップと同等以上に重要な設計変数である可能性がある。DeepSWE が Qwen3-32B を、Composer 2 が独自 MoE を基盤とする設計選択と合わせると、「どの基盤モデルをどう訓練するか」がエージェント性能の主要な分岐点となっている。(Source: [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]], [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]], [[@2026__arXiv__Composer 2 Technical Report]]) ## 未解決の問い - Composer 2 の CursorBench は内部ベンチマークであり外部再現が不可能である。コーディングエージェントの実世界性能を測る第三者検証可能なベンチマーク設計はどうあるべきか。SWE-bench のデータ汚染問題と CursorBench の非公開問題は表裏一体であり、動的に更新され外部評価も受け入れるベンチマークの枠組みが必要になる。(Source: [[@2026__arXiv__Composer 2 Technical Report]] §5) - 継続事前学習のコードベースパープレキシティと下流 RL 報酬の対数線形相関が、他のドメイン特化(例: SRE エージェント・時系列予測エージェント)でも成立するか。ドメイン特化事前学習→RL の 2 段パイプラインの汎用性が未検証。(Source: [[@2026__arXiv__Composer 2 Technical Report]] §3, 図 2) - コーディングエージェントのタスクホライズン拡大(数時間の人間作業に相当するタスク)に対し、自己要約機構のスケーラビリティ限界はどこにあるか。Composer 2 は自己要約で対応するが、情報損失の累積が長期タスクでの性能を制約しうる。(Source: [[@2026__arXiv__Composer 2 Technical Report]] §8) ## 関連 - [[エージェント型強化学習]] — コーディングエージェントの RL 訓練手法 - [[強化ファインチューニング]] — RFT の一般理論 - [[強化学習スケーリング]] — RL 計算量のスケーリング則 - [[agentic SRE]] — SRE ドメインのエージェント型自動化(同型の設計思想) ## 出典 - [[@2026__arXiv__Composer 2 Technical Report]] - [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]] - [[@2025__arXiv__The Landscape of Agentic Reinforcement Learning]] - [[@2024__arXiv__DeepSeek-Coder - When the Large Language Model Meets Programming]]