@2026__Cursor__CursorBench - How Cursor Evaluates Model Quality

# @2026__Cursor__CursorBench - How Cursor Evaluates Model Quality Navigation: [[sources/_index]] | [[index]] **著者**: [[Naman Jain]]([[Cursor Research]]) **URL**: https://cursor.com/blog/cursorbench **公開**: 2026 年 ## 要旨 [[Cursor]] のモデル品質評価体制を公開した技術ブログ記事。公開ベンチマーク(特に [[SWE-Bench-Verified]])の限界を 3 点批判したうえで、[[CursorBench]] 3.1 のハイブリッドオンライン・オフライン評価設計を解説する。著者 [[Naman Jain]] は [[Agentica]]/[[DeepSWE]] 論文の共同筆頭著者で、現在は [[Cursor Research]] 在籍。 ## 公開ベンチマークの 3 つの限界 | 限界 | 詳細 | |---|---| | 調整不足 | SWE-bench はバグ修正特化。機能追加・リファクタ・コードベース理解等を扱わない | | 採点問題 | 複数の有効解を認識できない。OpenAI は未解決問題の **約 60% にテスト欠陥**があるとして報告停止 | | 汚染 | SWE-bench Verified/Pro/Multilingual は訓練データ汚染の影響下 | > [!key-insight] SWE-bench の後退 > OpenAI の SWE-bench Verified 報告停止は「公開ベンチマーク競争」に対する業界の信頼を揺るがす。[[CursorBench]] 型の内部ベンチマーク + オンライン評価の組み合わせが代替として浮上。 ## CursorBench 3.1 の設計 ### データ由来 - **[[Cursor Blame]]** 機能: コミットされたコードを元のエージェントリクエストにトレース - 内部エンジニアチームの実 Cursor セッション由来 - 公開リポジトリ非使用 → 汚染リスク低減 ### 評価次元 4 次元で評価: 1. **solution correctness** — 解の正しさ 2. **code quality** — コード品質 3. **efficiency** — 効率性 4. **interaction behavior** — インタラクション動作 ### 問題スコープの拡大 - CursorBench 3.1 は初期版比で問題スコープ **約 2 倍**(行数・ファイル数) - 公開ベンチマークより実質的に長いタスク ### ハイブリッド評価方式 ``` オフライン評価(CursorBench)← 高速・再現可能・識別力高 + オンライン評価(実開発者セッション)← 現実整合性・リグレッション検出 ``` - オンライン評価でセマンティックサーチ除去の ablation 等を実施 - フロンティアモデル間の識別力が公開ベンチマークより高い(produces more separation) - Haiku 等の相対性能を GPT-5 に対して正確に検出できる ## 将来方向次期評価では「long-running agents working on their own computers」に対応予定。課題: 採点コスト削減 / 外部サービス連携タスクの再現性 / オフライン-体験ギャップの縮小。 ## 関連ページ - [[CursorBench]] — ベンチマーク実体ページ - [[Cursor]] — エディタ製品 - [[Cursor Research]] — 開発チーム - [[Naman Jain]] — 著者 - [[SWE-Bench-Verified]] — 批判の対象 - [[コーディングエージェント評価]] — 概念横断ページ ## 出典 - `.raw/articles/cursorbench-2026-06-17.md`