# SWE-Bench-Verified
実際の GitHub リポジトリから収集したソフトウェアエンジニアリングの課題(バグ修正)を用いたベンチマーク。人間の検証により品質が保証されたサブセットである。コーディングエージェントの評価に広く使用されており、[[DeepSWE]] がオープンウェイトモデルの SOTA(ハイブリッド Best@16 で 59.0%)を達成したベンチマーク。
(Source: [[@2025__Together AI__DeepSWE - Training a Fully Open-sourced State-of-the-Art Coding Agent by Scaling RL]])