# OlmoRL [[Allen Institute for AI]] が [[OLMo 3]] の RLVR 段階のために開発した LLM 向け RL 訓練インフラストラクチャ。[[GRPO]] をベースに以下の 7 つの改善を統合した目的関数を使用する。 1. **ゼロ勾配フィルタリング**: 全ロールアウトが同一報酬のグループを勾配更新から除外 2. **アクティブサンプリング**: 方策が既に解けた問題の再サンプリングを抑制 3. **トークンレベル損失**: シーケンスレベルでなくトークン単位で損失を計算 4. **KL 損失なし**: KL 正則化項を除去(長推論チェーンの探索を促進) 5. **クリップハイヤー**: クリッピング閾値を標準より高く設定 6. **切断重要度サンプリング**: 古いポリシーからのサンプルの重要度重みを切断 7. **標準偏差正規化なし**: アドバンテージの標準偏差による正規化を行わない アーキテクチャは完全非同期パイプライン型で、[[DeepSpeed]] ベースの学習器と [[vLLM]] ベースのアクタープールを分離し、連続バッチングとインフライトモデル更新を組み合わせる。RL 訓練の 75% を占めるロールアウト推論の待機を大幅に削減し、OLMo 2 比 4 倍のスループットを実現。長推論チェーン(平均 10K+ トークン)の安定訓練を可能にした。(Source: [[@2025__arXiv__OLMo 3]]) ## 関連 - ソース: [[@2025__arXiv__OLMo 3]] - 開発組織: [[Allen Institute for AI]] - 使用モデル: [[OLMo 3]] - 基盤アルゴリズム: [[GRPO]] - 訓練インフラ: [[DeepSpeed]] / [[vLLM]] - 類似システム: [[PipelineRL]] / [[ScaleRL]] / [[VeRL]] - 関連概念: [[強化ファインチューニング]] / [[強化学習スケーリング]]