## Memo - openreview: [SWE-bench: Can Language Models Resolve Real-world Github Issues? \| OpenReview](https://openreview.net/forum?id=VTF8yNQM66) ## Memo with LLM ## Abstract 言語モデルは、それを効果的に評価する我々の能力を凌駕しているが、将来の発展のためには、その能力のフロンティアを研究することが不可欠である。我々は、実世界のソフトウェア工学が、次世代の言語モデルを評価するための、豊富で、持続可能で、挑戦的なテストベッドであることを発見した。この目的のために、我々はSWE-benchを導入する。SWE-benchは、$12$の人気のあるPythonリポジトリにわたる実際のGitHubの課題と対応するプルリクエストから引き出された$2,294$のソフトウェアエンジニアリングの問題から構成される評価フレームワークである。解決すべき問題の記述とともにコードベースが与えられると、言語モデルはその問題に対処するためにコードベースを編集するタスクを与えられる。SWE-benchの問題を解決するには、複数の関数、クラス、さらにはファイルにわたる変更を理解し、同時に調整することが頻繁に必要であり、実行環境と相互作用し、非常に長いコンテキストを処理し、従来のコード生成タスクをはるかに超える複雑な推論を実行するモデルが求められます。我々の評価では、最先端の独自モデルと我々の微調整モデルSWE-Llamaの両方が、最も単純な問題しか解決できないことを示している。最も性能の良いモデルであるClaude 2は、問題のわずか$1.96$%しか解決できない。SWE-benchの進歩は、より実用的で、インテリジェントで、自律的なLMへの一歩である。