## Memo - [[Measuring AI Ability to Complete Long Tasks]] にブログがある。 ## Memo with LLM ## Abstract AIベンチマークにおける急速な進展にもかかわらず、ベンチマーク性能の現実世界における意味は依然として不明確です。AIシステムの能力を人間の能力の観点から定量化するため、私たちは新たな指標「50%タスク完了時間枠」を提案します。これは、AIモデルが50%の成功率で完了できるタスクを、人間が通常完了するまでに要する時間です。まず、関連分野の専門知識を持つ人間を対象に、RE-Bench、HCAST、および66の新しい短いタスクの組み合わせで時間を測定しました。これらのタスクにおいて、Claude 3.7 Sonnetなどの最先端AIモデルは、50%の時間地平線が約50分となっています。さらに、AIの時間地平線は2019年以降、約7ヶ月ごとに倍増する傾向にあり、2024年にはこの傾向が加速した可能性があります。AIモデルの時間枠の延長は、主に信頼性の向上と誤りへの適応能力、論理的推論とツール使用能力の向上に起因しているようです。私たちは、結果の限界(外部有効性の程度を含む)と、自律性の向上による危険な能力への影響について議論します。これらの結果が現実のソフトウェアタスクに一般化する場合、この傾向を extrapolate すると、5年以内にAIシステムは現在人間が1ヶ月かかる多くのソフトウェアタスクを自動化できる可能性があります。