# OlmoRL
[[Allen Institute for AI]] が [[OLMo 3]] の RLVR 段階のために開発した LLM 向け RL 訓練インフラストラクチャ。[[GRPO]] をベースに以下の 7 つの改善を統合した目的関数を使用する。
1. **ゼロ勾配フィルタリング**: 全ロールアウトが同一報酬のグループを勾配更新から除外
2. **アクティブサンプリング**: 方策が既に解けた問題の再サンプリングを抑制
3. **トークンレベル損失**: シーケンスレベルでなくトークン単位で損失を計算
4. **KL 損失なし**: KL 正則化項を除去(長推論チェーンの探索を促進)
5. **クリップハイヤー**: クリッピング閾値を標準より高く設定
6. **切断重要度サンプリング**: 古いポリシーからのサンプルの重要度重みを切断
7. **標準偏差正規化なし**: アドバンテージの標準偏差による正規化を行わない
アーキテクチャは完全非同期パイプライン型で、[[DeepSpeed]] ベースの学習器と [[vLLM]] ベースのアクタープールを分離し、連続バッチングとインフライトモデル更新を組み合わせる。RL 訓練の 75% を占めるロールアウト推論の待機を大幅に削減し、OLMo 2 比 4 倍のスループットを実現。長推論チェーン(平均 10K+ トークン)の安定訓練を可能にした。(Source: [[@2025__arXiv__OLMo 3]])
## 関連
- ソース: [[@2025__arXiv__OLMo 3]]
- 開発組織: [[Allen Institute for AI]]
- 使用モデル: [[OLMo 3]]
- 基盤アルゴリズム: [[GRPO]]
- 訓練インフラ: [[DeepSpeed]] / [[vLLM]]
- 類似システム: [[PipelineRL]] / [[ScaleRL]] / [[VeRL]]
- 関連概念: [[強化ファインチューニング]] / [[強化学習スケーリング]]