# CursorBench [[Cursor Research]] のエンジニアリングチームの実際のコーディングセッションから導出した内部評価スイート。公開ベンチマーク(SWE-bench、Terminal-Bench)の 4 つの限界(ドメインミスマッチ・プロンプト過剰指定・データ汚染・評価範囲の狭さ)に対処する。 ## 特徴 - **コード変更量**: 変更行数の中央値 181 行(SWE-bench Verified の 7-10 行の 1 桁以上) - **プロンプト長**: 記述長の中央値 390 文字(SWE-bench の 1,185-3,055 文字より著しく短い) - **タスク種別**: 機能追加の反復・デバッグ・新機能・リファクタリング・コードベース理解・文書化・テスト・コードレビュー・最適化・DevOps・マイグレーション・削除 - **継続更新**: CursorBench-3 は初版比でファイル数・コード行数の中央値を 2 倍以上に増加 - **補完的評価**: インテント・指示追従・過剰編集回避・コード品質・中断処理の 5 種 ## 制約 内部ベンチマークであり外部からの再現が不可能。第三者検証の仕組みは提示されていない。 ## 出典 - [[@2026__arXiv__Composer 2 Technical Report]] §5