# コーディングエージェント評価 コーディングエージェントの能力を測るためのベンチマーク・評価手法の総称。公開ベンチマークと内部ベンチマーク、オフライン評価とオンライン評価の軸で整理される。 ## 公開ベンチマークの限界 [[SWE-Bench-Verified]] を筆頭とする公開ベンチマークには 3 つの構造的限界がある([[CursorBench]] ブログより): | 限界 | 内容 | |---|---| | **調整不足** | SWE-bench はバグ修正特化。機能追加・リファクタリング・コードベース理解等を扱わない | | **採点問題** | 複数の有効解を認識できない。OpenAI は「未解決問題の 60% にテスト欠陥」として報告停止 | | **汚染** | SWE-bench Verified/Pro/Multilingual は訓練データ汚染の影響下 | > [!key-insight] SWE-bench 後退の意味 > OpenAI が SWE-bench Verified 報告を停止したことは、公開ベンチマーク競争の信頼性に対する業界警告として機能する。内部ベンチマーク + オンライン評価への移行を促す圧力になっている。 ## 評価方式の二軸 ### オフライン評価 - 内部ベンチマーク(CursorBench 等)で高速・再現可能に評価 - フロンティアモデル間のスコア差別化に有効 - 汚染対策として実コーディングセッションから問題を生成する手法([[Cursor Blame]] 等)が有効 ### オンライン評価 - 実開発者の使用状況でリグレッション検出 - セマンティックサーチ等の機能 ablation に使用 - 開発者体験と直結するが、コスト・再現性に課題 ## 評価次元 CursorBench 3.1 で採用される 4 次元: 1. **solution correctness** — 解の正しさ 2. **code quality** — コード品質 3. **efficiency** — 効率性 4. **interaction behavior** — インタラクション動作 ## 今後の課題 - 長時間実行エージェント(long-running cloud agents)への評価拡張 - 外部サービス連携タスクの再現性確保 - 採点コストの削減 - オフライン評価と開発者体験のギャップ縮小 ## 関連ページ - [[CursorBench]] — Cursor 社の内部評価ベンチマーク - [[SWE-Bench-Verified]] — 公開ベンチマーク(限界が指摘されている) - [[Cursor Research]] — CursorBench 開発チーム ## 出典 - [[@2026__Cursor__CursorBench - How Cursor Evaluates Model Quality]] - [[@2026__arXiv__Composer 2 Technical Report]]