# WorkArena
Web エージェントが一般的な knowledge work タスクをどこまで解けるかを測るベンチマーク/実装基盤(Drouin ほか, 2024。本論文の参照 [17])。
- [[@2025__OSR__Cloud Infrastructure Management in the Age of AI Agents]] では、ClickOps エージェントの実装が WorkArena から採用され、スクリーンショットと accessibility tree / AXTree を用いて Web UI を操作する。モデルは GPT-4o(Web エージェントに有効とされる)。
- 本論文の予備実験では、この WorkArena ベースの ClickOps エージェントは監視タスクで最良(成功率 1.0)だが、リソース作成では CLI の約 30× の step を要し複雑な provisioning で max step に達して失敗するなど、遅く脆い面が露呈した([[クラウド管理モダリティ]] 参照)。
## 関連
- ソース: [[@2025__OSR__Cloud Infrastructure Management in the Age of AI Agents]]
- 概念: [[クラウド管理モダリティ]]
- 関連プロダクト: [[Microsoft Azure]]