# コーディングエージェント評価
コーディングエージェントの能力を測るためのベンチマーク・評価手法の総称。公開ベンチマークと内部ベンチマーク、オフライン評価とオンライン評価の軸で整理される。
## 公開ベンチマークの限界
[[SWE-Bench-Verified]] を筆頭とする公開ベンチマークには 3 つの構造的限界がある([[CursorBench]] ブログより):
| 限界 | 内容 |
|---|---|
| **調整不足** | SWE-bench はバグ修正特化。機能追加・リファクタリング・コードベース理解等を扱わない |
| **採点問題** | 複数の有効解を認識できない。OpenAI は「未解決問題の 60% にテスト欠陥」として報告停止 |
| **汚染** | SWE-bench Verified/Pro/Multilingual は訓練データ汚染の影響下 |
> [!key-insight] SWE-bench 後退の意味
> OpenAI が SWE-bench Verified 報告を停止したことは、公開ベンチマーク競争の信頼性に対する業界警告として機能する。内部ベンチマーク + オンライン評価への移行を促す圧力になっている。
## 評価方式の二軸
### オフライン評価
- 内部ベンチマーク(CursorBench 等)で高速・再現可能に評価
- フロンティアモデル間のスコア差別化に有効
- 汚染対策として実コーディングセッションから問題を生成する手法([[Cursor Blame]] 等)が有効
### オンライン評価
- 実開発者の使用状況でリグレッション検出
- セマンティックサーチ等の機能 ablation に使用
- 開発者体験と直結するが、コスト・再現性に課題
## 評価次元
CursorBench 3.1 で採用される 4 次元:
1. **solution correctness** — 解の正しさ
2. **code quality** — コード品質
3. **efficiency** — 効率性
4. **interaction behavior** — インタラクション動作
## 今後の課題
- 長時間実行エージェント(long-running cloud agents)への評価拡張
- 外部サービス連携タスクの再現性確保
- 採点コストの削減
- オフライン評価と開発者体験のギャップ縮小
## 関連ページ
- [[CursorBench]] — Cursor 社の内部評価ベンチマーク
- [[SWE-Bench-Verified]] — 公開ベンチマーク(限界が指摘されている)
- [[Cursor Research]] — CursorBench 開発チーム
## 出典
- [[@2026__Cursor__CursorBench - How Cursor Evaluates Model Quality]]
- [[@2026__arXiv__Composer 2 Technical Report]]