@2026__arXiv__Composer 2 Technical Report

# Composer 2 Technical Report ## 論文情報 - **著者**: Cursor Research Team（Aaron Chan, Ahmed Shalaby, Alexander Wettig, Aman Sanger, Andrew Zhai, Anurag Ajay, Ashvin Nair, Charlie Snell, Chen Lu, Chen Shen, Emily Jia, Federico Cassano, Hanpeng Liu, Haoyu Chen, Henry Wildermuth, Jacob Jackson, Janet Li, Jediah Katz, Jiajun Yao, Joey Hejna, Josh Warner, Julius Vering, Kevin Frans, Lee Danilek, Less Wright, Lujing Cen, Luke Melas-Kyriazi, Michael Truell, Michiel de Jong, Naman Jain, Nate Schmidt, Nathan Wang, Niklas Muennighoff, Oleg Rybkin, Paul Loh, Phillip Kravtsov, Rishabh Yadav, Sahil Shah, Sam Kottler, Alexander M Rush, Shengtong Zhang, Shomil Jain, Sriram Sankar, Stefan Heule, Stuart H. Sul, Sualeh Asif, Victor Rong, Wanqi Zhu, William Lin, Yuchen Wu, Yuri Volkov, Yury Zemlyanskiy, Zack Holbrook, Zhiyuan Zhang） - **所属**: [[Cursor Research]] - **出典**: arXiv:2603.24477v2 [cs.SE], 2026-03-25（改訂 2026-03-26） - **ページ数**: 23 ## アブストラクト訳 Composer 2 はエージェント型ソフトウェア工学に特化したモデルであり、長期計画とコーディング知能に優れる。訓練は継続事前学習と、実際の Cursor 環境を用いた大規模強化学習の 2 段階で行われる。実世界のエンジニアリング課題から導出した [[CursorBench]] を導入し、同ベンチマークで 61.3、Terminal-Bench で 61.7、SWE-bench Multilingual で 73.7 を達成してフロンティアモデルと競争力のある精度を示す。 ## 概要 Composer 2 は [[Cursor Research]] が開発したエージェント型コーディングモデルである。ファイルの読み書き、シェルコマンド実行、grep/セマンティック検索、ウェブ検索という少数の汎用ツール群を用いてリポジトリ内を自律的に探索し、複雑なソフトウェア工学タスクを解決する。ベースモデルに [[Kimi K2.5]]（1.04T パラメータ / 32B アクティブ、MoE）を採用し、継続事前学習と非同期 RL の 2 段階で訓練する。 ## 問題設定既存のコーディングベンチマーク（SWE-bench、Terminal-Bench）は、(1) ドメインミスマッチ（バグ修正偏重・抽象パズル混在）、(2) プロンプト過剰指定（曖昧な実タスクとの乖離）、(3) データ汚染（訓練混合物へのリーク）、(4) 評価範囲の狭さ（機能的正しさのみ）という 4 要因でモデルの実世界能力を正しく反映しない。実務的な開発者ワークフローに整合する評価と、低コストでフロンティア級精度を実現するドメイン特化モデルが求められる。 ## 提案手法 ### 継続事前学習（§3） [[Kimi K2.5]] をベースにコードデータ支配の混合データで継続事前学習を行う。3 フェーズ構成: 1. 32K トークン系列長でのバルク学習 2. 256K 系列長へのロングコンテキスト拡張 3. コーディングタスクの短い SFT MXFP8 精度で NVIDIA B300 を使用し AdamW で最適化する。コードベースのパープレキシティが訓練中に対数線形に低下し、下流 RL 報酬の予測因子となることを Qwen3-Coder-30B-A3B での予備実験で確認した。投機的復号のため Multi-Token Prediction（MTP）層を自己蒸留で訓練し、長コンテキストフェーズと SFT フェーズで主モデルと共同学習する。 ### 強化学習（§4）実際の Cursor セッションを模倣する環境で大規模な方策勾配学習を行う。 - **アルゴリズム**: Dr. GRPO に従い、長さ標準化項を除去し、グループ内アドバンテージの標準偏差正規化も除去する。過長ロールアウトのマスキングは採用しない。KL 推定量は分散爆発を避けるため $k_1 = -\log r$ を使用する。 - **非同期レジーム**: 訓練ワーカーとロールアウト生成ワーカーが独立に動作し、[[PipelineRL]] 同様のインフライト重み更新でオフポリシー乖離を最小化する。MoE ルーティングリプレイで推論・訓練間のエキスパート選択の一貫性を保つ。 - **平均性能と best-of-K 性能の同時改善**: RL 訓練期間を通じて両統計量が向上し、「RL が既知の成功軌跡への確率質量再配分にすぎない」という先行研究の懸念とは異なり、正解解の実効的カバレッジが拡大していることを示す。 - **自己要約**: Composer 1.5 で導入した手法を継承し、ロールアウト内で複数の生成をセルフサマリーで連鎖させる。最終報酬を連鎖内の全トークンに適用し、良い要約を強化・悪い要約を抑制する。 - **エージェント行動**: コーディングスタイル、コミュニケーション、不完全ツール呼び出しへの補助報酬を適用する。非線形長さペナルティ $C_{\text{length}\{k,q\}}(x) = \frac{(1+kx)^{1-q}-1}{k(1-q)}$ で容易なタスクでは迅速に、困難なタスクでは長く推論するようモデルに動機づける。 ### CursorBench（§5）自社エンジニアリングチームの実際のコーディングセッションから導出した内部評価スイート。 - 変更行数の中央値: 181 行（SWE-bench の 7-10 行と 1 桁以上の差） - プロンプト記述長の中央値: 390 文字（SWE-bench の 1,185-3,055 文字より著しく短い） - タスク種別: 機能追加の反復・デバッグ・新機能・リファクタリング・コードベース理解・文書化・テスト・コードレビュー・最適化・DevOps・マイグレーション・削除 - 継続的に更新され、CursorBench-3 は初版比でファイル数・コード行数の中央値を 2 倍以上に増加 - 補完的な評価: インテント・指示追従・過剰編集回避・コード品質・中断処理の 5 種 ### 訓練インフラ（§6） - **並列化**: FSDP + EP + CP（コンテキスト並列が主長コンテキスト軸、MLA アーキテクチャ向けの最適化、EP を TP から分離）。[[DeepEP]] によるエキスパート間高スループットトークン分配。 - **カーネル**: CUDA/PTX/[[ThunderKittens]]/[[ParallelKittens]] の自社カーネル。MoE フォワードパスに NVFP4（パートークンスケール付き FP4E2M1）、バックワードパスに MXFP8 を使用。 - **RL インフラ**: 訓練・環境・推論・評価の 4 サービス分離。3 リージョン GPU + 4 リージョン CPU。[[Anyrun]]（Firecracker VM 基盤のコード実行プラットフォーム）で数十万ポッドを管理し、ロールアウトレベル/グループレベルのポリシー認識チェックポイントで耐障害性を確保する。 - **推論と重み同期**: [[Fireworks AI]] と提携。MoE ルーティングリプレイ + プラウジビリティ閾値フィルタリングで推論—訓練間の数値誤差を抑制。差分圧縮による S3 経由の重み同期で地理的に分散されたクラスタに対応。 **Figure 9: 図** ![[_attachments/arxiv-2603.24477/fig9-figure.png]] (Figure 9. Evolution of CursorBench を示す。) **Figure 11: 図** ![[_attachments/arxiv-2603.24477/fig11-figure.png]] (Figure 11. On CursorBench, Composer 2 achieves a superior Pareto frontier in cost while remaining highly competitive in token effic を示す。) **Figure 1: モデル構成** ![[_attachments/arxiv-2603.24477/fig1-model.png]] (Figure 1. Composer 2 improves greatly from previous Composer models, achieving performance competitive に関するモデル構成を示す。) **Figure 2: モデル構成** ![[_attachments/arxiv-2603.24477/fig2-model.png]] (Figure 2. Continued pretraining translates to downstream RL performance. Left: We study this relationship on a smaller Qwen model, に関するモデル構成を示す。) ## 新規性 1. **ドメイン特化 RL の有効性の実証**: 汎用フロンティアモデル(GPT-5.4, Claude Opus 4.6)と競争力のある精度を、推論コストのパレート最適点で達成した初のドメイン特化コーディングエージェント。 2. **継続事前学習→RL の定量的関係**: コードベースパープレキシティ(交差エントロピー損失)と下流 RL 報酬が対数線形に相関することを示し、事前学習と RL の 2 段訓練の設計指針を定量化した。 3. **平均性能と best-of-K の同時改善**: RL が既知軌跡の確率再配分にとどまらず正解解のカバレッジを拡大することを示した。先行研究の「RL はエントロピー削減のみ」という懸念への反証。 4. **CursorBench**: 実世界のソフトウェア工学タスクを反映する継続更新型ベンチマーク。コード変更量が公開ベンチマークの 1 桁以上大きく、プロンプトは著しく短い。 5. **NVFP4 パートークンスケーリング**: MoE フォワードパスで標準の per-tensor スケーリングがバッチ依存性と因果情報リークを生じることを発見し、per-token スケーリングへ修正した。 ## 実験設定 - ベースモデル: [[Kimi K2.5]]（1.04T / 32B active, MoE） - 比較対象: Composer 1/1.5、Opus 4.6 High、GPT-5.4、GPT-5.3 Codex、GLM-5、Kimi K2.5 - 評価: CursorBench-3(内部)、SWE-bench Multilingual(公開)、Terminal-Bench(公開) - 訓練ハードウェア: NVIDIA B300、MXFP8/NVFP4 精度 **Figure 7: 比較** ![[_attachments/arxiv-2603.24477/fig7-comparison.png]] (Figure 7. Compared to public benchmarks, CursorBench tasks have less-specified task prompts, and require an order of magnitude mor に関する比較関係を示す。) ## 実験結果 | モデル | CursorBench | SWE-bench Multi. | Terminal-Bench | |---|---|---|---| | **Composer 2** | **61.3** | **73.7** | **61.7** | | Composer 1.5 | 44.2 | 65.9 | 47.9 | | Composer 1 | 38.0 | 56.9 | 40.0 | | Opus 4.6 High | 58.2 | 75.8 | 58.0 | | GPT-5.4 | 63.9 | 76.8 | 66.5 | | GPT-5.3 Codex | 59.1 | 74.8 | 64.8 | | Kimi K2.5 | 36.0 | 65.1 | 47.3 | Composer 2 は CursorBench で Composer 1.5 比 37% 相対改善、ベースモデル Kimi K2.5 比 70.3% 相対改善を達成する。推論コストはフロンティアモデルの API 価格より大幅に安価で、パレート最適のコスト—精度トレードオフを実現する。 ## 考察 - 継続事前学習がコーディング知識のベースを底上げし、RL がエージェント能力を引き上げるという 2 段設計の有効性を実証した。 - RL が平均性能と best-of-K 性能の双方を改善した点は、「RL はエントロピー削減のみ」という先行研究の指摘に対する重要な反証であり、RL が推論パスの多様性を維持しながら精度を向上させうることを示す。 - 自己要約機構が長期ホライズンのタスクで文脈保持を可能にし、プロンプトベースの圧縮よりも少ないトークンで低いエラー率を達成する。 - NVFP4 の per-tensor スケーリングがバッチ依存の数値精度崩壊と因果情報リークを引き起こすことは、低精度 MoE 訓練の実用上の重要な知見である。 - CursorBench の「継続的更新」設計は、モデル能力の向上に伴うベンチマーク飽和を防ぐ。 ## 強み - 実世界の Cursor 環境をそのまま訓練・評価に使用することで訓練—テスト間のミスマッチを最小化する設計思想が徹底している。 - 4 サービス分離（訓練/環境/推論/評価）の RL インフラは高可用性と独立スケーリングを実現し、地理的分散を含む大規模訓練を可能にしている。 - カーネルレベルの最適化（NVFP4/MXFP8）とアルゴリズム設計（MoE ルーティングリプレイ、差分圧縮重み同期）の協調が、1T パラメータモデルの非同期 RL を実用化している。 - ベンチマーク設計の体系的批判と代替提案（CursorBench）が、分野全体の評価方法論に貢献している。 ## 弱点 - CursorBench は内部ベンチマークであり、外部からの再現・比較が不可能である。第三者検証の仕組みが提示されていない。 - ベースモデル選定は 3 候補（GLM-5/Kimi K2.5/DeepSeek V3.2）のみで、選定理由の 1 つ「インフラ効率」の詳細が不明確である。 - RL 訓練の規模（GPU 時間・ロールアウト数・問題数）が定量的に報告されておらず、訓練コストの再現性評価が困難である。 - ablation が限定的で、各RL設計選択（非線形長さペナルティ、KL推定量の選択、MoEルーティングリプレイ等）の個別寄与が十分に分離されていない。 ## 出典 - arXiv:2603.24477v2 [cs.SE], 2026-03-25