CursorBench - yuuk1's Digital Garden

# CursorBench [[Cursor Research]] のエンジニアリングチームの実際のコーディングセッションから導出した内部評価スイート。公開ベンチマーク（[[SWE-Bench-Verified]]、Terminal-Bench）の 3 つの限界（調整不足・採点問題・汚染）に対処する。現行バージョンは **3.1**。 ## 特徴 - **コード変更量**: 変更行数の中央値 181 行（SWE-bench Verified の 7-10 行の 1 桁以上） - **プロンプト長**: 記述長の中央値 390 文字（SWE-bench の 1,185-3,055 文字より著しく短い） - **タスク種別**: 機能追加の反復・デバッグ・新機能・リファクタリング・コードベース理解・文書化・テスト・コードレビュー・最適化・DevOps・マイグレーション・削除 - **問題スコープ**: CursorBench 3.1 は初期版比で行数・ファイル数ともに **約 2 倍** - **補完的評価次元**: インテント・指示追従・過剰編集回避・コード品質・中断処理の 5 種 ## データ由来と汚染対策 [[Cursor Blame]] 機能でコミットされたコードを元のエージェントリクエストにトレースし、内部エンジニアチームの実セッションをタスクの素材として利用する。公開リポジトリを使用しないことで訓練データ汚染リスクを低減する。 ## ハイブリッド評価方式オフライン(CursorBench 実行)とオンライン(実開発者セッションのリグレッション検出・機能 ablation)を組み合わせることで、スピードと実世界整合性を両立する。フロンティアモデル間でスコアの差別化が公開ベンチマークより大きく出る(produces more separation)。 ## 評価次元(4 次元) 1. solution correctness 2. code quality 3. efficiency 4. interaction behavior ## 制約内部ベンチマークのため外部からの再現が不可能。第三者検証の仕組みは提示されていない。 ## 出典 - [[@2026__arXiv__Composer 2 Technical Report]] §5 - [[@2026__Cursor__CursorBench - How Cursor Evaluates Model Quality]]