SWE-Bench-Verified - yuuk1's Digital Garden

# SWE-Bench-Verified 実際の GitHub リポジトリから収集したソフトウェアエンジニアリングの課題(バグ修正)を用いたベンチマーク。人間の検証により品質が保証されたサブセットである。コーディングエージェントの評価に広く使用されており、[[DeepSWE]] がオープンウェイトモデルの SOTA(ハイブリッド Best@16 で 59.0%)を達成した。 ## 限界(批判) [[Cursor Research]] が指摘する 3 つの構造的限界([[コーディングエージェント評価]] 参照): - **調整不足**: バグ修正特化であり、機能追加・リファクタリング・コードベース理解等を扱わない - **採点問題**: 複数の有効解を認識できない - **汚染**: SWE-bench Verified/Pro/Multilingual は訓練データ汚染の影響下 **OpenAI は報告を停止**した。理由: 「未解決問題の約 60% にテストの欠陥がある」ため。(Source: [[@2026__Cursor__CursorBench - How Cursor Evaluates Model Quality]]) ## 出典 - [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]] - [[@2026__Cursor__CursorBench - How Cursor Evaluates Model Quality]]