AgentBench - yuuk1's Digital Garden

# AgentBench [[Xiao Liu]] ら([[Tsinghua University]])が開発した、LLM をエージェントとして評価する包括的かつ進化するベンチマーク(ICLR 2024)。OS・DB・KG・ALFWorld・WebShop・Mind2Web・Lateral Thinking・House-Holding の 8 つのマルチターン対話環境から構成される。標準化された評価プロトコルとオープンソースのコード環境を提供し、長系列理解・文脈追跡・環境インタラクションの能力を評価する。 [[AgentRL]] は AgentBench の 5 環境(ALFWorld、DB、KG、OS、WebShop)を関数呼び出し形式に変換した **AgentBench-FC** として訓練と評価に使用。各環境のアクション種別を分析し、OpenAI Function Call 形式のツールを抽出・実装する(例: KG 環境では get_relations, get_neighbors, count 等の 7 ツール)。 (Source: [[@2025__arXiv__AgentRL - Training Language Model Agents with Reinforcement Learning]], Liu et al. ICLR 2024)