[[University of Science and Technology of China]] の [[Mingyue Cheng]] らが開発した、LLM エージェントのマルチターン強化学習(RL)訓練のための統合的かつモジュール式のオープンソースフレームワーク。ステップレベル MDP 抽象化と柔軟なコンテキスト管理を核心とし、PPO・GRPO・Reinforce++・RLOO の複数アルゴリズムを同一基盤上で実行できる。 リポジトリは github.com/AgentR1/Agent-R1。同グループは姉妹フレームワーク Claw-R1 (github.com/AgentR1/Claw-R1) も公開している。 主な特長: - 各対話ラウンドを RL 遷移 $z_t = (o_t, a_t, e_t, r_t, o_{t+1})$ として構造化し、再トークン化ドリフト(retokenization drift)を防止 - 環境側のコンテキスト構成規則 $C(\cdot)$ で追記のみ・スライディングウィンドウ・要約など任意の記憶管理をサポート - Qwen3-4B + GSM8K/HotpotQA/ALFWorld/WebShop の 4 タスクで評価済み - 既存フレームワーク(veRL・slime・Agent Lightning・AReaL・rLLM)と対比し、ステップレベル MDP とコンテキスト管理の**双方**を明示化した初の設計(表 1) ## 関連 - 著者: [[Mingyue Cheng]]、[[Xiaoyu Tao]]、[[Qi Liu]]、[[Enhong Chen]] - 所属: [[University of Science and Technology of China]] - ソース: [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]] - 概念: [[エージェント型強化学習]]、[[強化ファインチューニング]]