# @2026__Cursor__CursorBench - How Cursor Evaluates Model Quality
Navigation: [[sources/_index]] | [[index]]
**著者**: [[Naman Jain]]([[Cursor Research]])
**URL**: https://cursor.com/blog/cursorbench
**公開**: 2026 年
## 要旨
[[Cursor]] のモデル品質評価体制を公開した技術ブログ記事。公開ベンチマーク(特に [[SWE-Bench-Verified]])の限界を 3 点批判したうえで、[[CursorBench]] 3.1 のハイブリッドオンライン・オフライン評価設計を解説する。著者 [[Naman Jain]] は [[Agentica]]/[[DeepSWE]] 論文の共同筆頭著者で、現在は [[Cursor Research]] 在籍。
## 公開ベンチマークの 3 つの限界
| 限界 | 詳細 |
|---|---|
| 調整不足 | SWE-bench はバグ修正特化。機能追加・リファクタ・コードベース理解等を扱わない |
| 採点問題 | 複数の有効解を認識できない。OpenAI は未解決問題の **約 60% にテスト欠陥**があるとして報告停止 |
| 汚染 | SWE-bench Verified/Pro/Multilingual は訓練データ汚染の影響下 |
> [!key-insight] SWE-bench の後退
> OpenAI の SWE-bench Verified 報告停止は「公開ベンチマーク競争」に対する業界の信頼を揺るがす。[[CursorBench]] 型の内部ベンチマーク + オンライン評価の組み合わせが代替として浮上。
## CursorBench 3.1 の設計
### データ由来
- **[[Cursor Blame]]** 機能: コミットされたコードを元のエージェントリクエストにトレース
- 内部エンジニアチームの実 Cursor セッション由来
- 公開リポジトリ非使用 → 汚染リスク低減
### 評価次元
4 次元で評価:
1. **solution correctness** — 解の正しさ
2. **code quality** — コード品質
3. **efficiency** — 効率性
4. **interaction behavior** — インタラクション動作
### 問題スコープの拡大
- CursorBench 3.1 は初期版比で問題スコープ **約 2 倍**(行数・ファイル数)
- 公開ベンチマークより実質的に長いタスク
### ハイブリッド評価方式
```
オフライン評価(CursorBench)← 高速・再現可能・識別力高
+
オンライン評価(実開発者セッション)← 現実整合性・リグレッション検出
```
- オンライン評価でセマンティックサーチ除去の ablation 等を実施
- フロンティアモデル間の識別力が公開ベンチマークより高い(produces more separation)
- Haiku 等の相対性能を GPT-5 に対して正確に検出できる
## 将来方向
次期評価では「long-running agents working on their own computers」に対応予定。
課題: 採点コスト削減 / 外部サービス連携タスクの再現性 / オフライン-体験ギャップの縮小。
## 関連ページ
- [[CursorBench]] — ベンチマーク実体ページ
- [[Cursor]] — エディタ製品
- [[Cursor Research]] — 開発チーム
- [[Naman Jain]] — 著者
- [[SWE-Bench-Verified]] — 批判の対象
- [[コーディングエージェント評価]] — 概念横断ページ
## 出典
- `.raw/articles/cursorbench-2026-06-17.md`