[[University of Science and Technology of China]] の [[Mingyue Cheng]] らが開発した、LLM エージェントのマルチターン強化学習(RL)訓練のための統合的かつモジュール式のオープンソースフレームワーク。ステップレベル MDP 抽象化と柔軟なコンテキスト管理を核心とし、PPO・GRPO・Reinforce++・RLOO の複数アルゴリズムを同一基盤上で実行できる。
リポジトリは github.com/AgentR1/Agent-R1。同グループは姉妹フレームワーク Claw-R1 (github.com/AgentR1/Claw-R1) も公開している。
主な特長:
- 各対話ラウンドを RL 遷移 $z_t = (o_t, a_t, e_t, r_t, o_{t+1})$ として構造化し、再トークン化ドリフト(retokenization drift)を防止
- 環境側のコンテキスト構成規則 $C(\cdot)$ で追記のみ・スライディングウィンドウ・要約など任意の記憶管理をサポート
- Qwen3-4B + GSM8K/HotpotQA/ALFWorld/WebShop の 4 タスクで評価済み
- 既存フレームワーク(veRL・slime・Agent Lightning・AReaL・rLLM)と対比し、ステップレベル MDP とコンテキスト管理の**双方**を明示化した初の設計(表 1)
## 関連
- 著者: [[Mingyue Cheng]]、[[Xiaoyu Tao]]、[[Qi Liu]]、[[Enhong Chen]]
- 所属: [[University of Science and Technology of China]]
- ソース: [[@2025__arXiv__Agent-R1 - Training Agents with End-to-End RL]]
- 概念: [[エージェント型強化学習]]、[[強化ファインチューニング]]