# OLMo 3
Navigation: [[sources/_index]] | [[index]]
## Abstract 訳
OLMo 3 は、7B および 32B パラメータ規模での最先端かつ完全オープンな言語モデルファミリーである。長コンテキスト推論、関数呼び出し、コーディング、指示追従、一般チャット、知識想起を対象能力とする。このリリースはモデルフロー全体、すなわち全段階・チェックポイント・データポイント・依存関係を含むモデルのライフサイクル全体を公開する。フラッグシップモデル OLMo 3.1 Think 32B は、現時点で最強の完全オープン思考モデルである。
## 論文情報
- **著者**: OLMo Team — [[Allen Institute for AI]](AI2)を中心に [[University of Washington]]、[[Carnegie Mellon University]]、[[Stanford University]]、Mila / Université de Montréal、[[Princeton University]]、[[MIT]]、University of Maryland の 50 名超
- **発表**: arXiv:2512.13961v2 [cs.CL], 2025-12-18(v2: 2026-04-14)
- **キーワード**: オープン LLM、モデルフロー、事前学習、ミッドトレーニング、長コンテキスト拡張、SFT、DPO、RLVR、Delta Learning
## 概要
OLMo 3 は「モデルの最終重みだけでなくモデルフロー全体を公開する」という方針のもと、事前学習から後訓練までの全工程を透明化した完全オープン LLM ファミリーである。Base・Think・Instruct・RL-Zero の 4 変種を提供し、各段階のデータ(Dolma 3 / Dolci)、コード(OLMo-core / Open Instruct)、評価基盤(OlmoBaseEval / OLMES)、訓練ログのすべてを公開する。
## 問題設定
オープンウェイトモデル(Qwen、Gemma、Llama 等)は最終重みのみを公開し、中間チェックポイント・訓練データ・データレシピは非公開である。この不透明性は (1) 任意段階での介入によるカスタマイズを阻害し、(2) 事前学習データが後訓練(特に RL)性能に与える影響の研究を不可能にし、(3) ベンチマーク汚染の検出を困難にする。
## 提案手法
### ベースモデル訓練(3 段階)
1. **事前学習(Dolma 3 Mix, 5.9T トークン)**: CommonCrawl からの 8T ウェブテキスト、olmOCR で変換した 972B トークンの学術 PDF、Stack-Edu コード、FineMath 数学ウェブページ、Wikipedia を含む 9T プールから品質認識型アップサンプリングと制約付きデータ混合で 6T ミックスを構築。Duplodocus による兆トークン規模のグローバル重複排除(3 段階: 完全一致 67% 除去 → MinHash ファジー 23% → サフィックス配列部分文字列 14%)。WebOrganizer による 24 トピック × 20 品質バケットの 480 分割、スウォーム型最適化による混合比の決定。
2. **ミッドトレーニング(Dolma 3 Dolmino Mix, 100B トークン)**: 数学(CraneMath, MegaMatt, Dolmino Math 等 5 種合成)、コード(CraneCode, Stack-Edu FIM)、QA(Reddit-to-Flashcards, Wiki-to-RCQA, Nemotron)、思考トレース(メタ推論、プログラム検証可能データ、既存トレースのリライト)、指示データ(Tulu 3 SFT, Flan)の多領域合成データを、マイクロアニール(軽量分散フィードバックループ)と統合テスト(集中評価)の 2 段方法論で 5 ラウンド反復キュレーション。
3. **長コンテキスト拡張(Dolma 3 Longmino Mix, 50–100B トークン)**: olmOCR 学術 PDF(32K+ トークン文書 450 万件、640B トークン)を基盤に、CWE/REX 合成集約タスクで長距離依存の教師信号を注入。YaRN をフルアテンション層のみに適用、文書パッキングと文書内マスキングで 65K コンテキストに拡張。
### 後訓練(3 段階 × 3 変種)
- **Think(推論特化)**: SFT(Dolci Think SFT, 約 225 万例)→ DPO(Delta Learning: Qwen 3 32B chosen / Qwen 3 0.6B rejected で能力デルタを最大化)→ RLVR(OlmoRL: 数学・コード・指示追従・一般チャットの 4 ドメイン、検証可能報酬 + LLM ジャッジ)。
- **Instruct(効率的応答特化)**: Think SFT を出発点に、関数呼び出しデータ(MCP サーバ実トラジェクトリ + SimFC 合成トラジェクトリ)を追加した SFT → 長さ制御付き DPO(マルチターン選好、デルタ認識 GPT ジャッジ)→ RLVR。
- **RL-Zero**: Base から直接 RLVR。事前学習データが RL 性能に与える影響の研究用。汚染除去済み。
### OlmoRL インフラ
GRPO ベースに 7 つの改善(ゼロ勾配フィルタリング、アクティブサンプリング、トークンレベル損失、KL 損失なし、クリップハイヤー、切断重要度サンプリング、標準偏差正規化なし)を組み込んだ目的関数。完全非同期訓練(DeepSpeed 学習器 + vLLM アクタープール)、連続バッチング、インフライトモデル更新で、OLMo 2 比 4 倍の RL 訓練スループットを実現。
## 新規性
1. **モデルフロー全体の完全公開**: 全中間チェックポイント、全データミックス(訓練用 + 元プール)、全コード、全訓練ログを公開した初の SOTA 級 LLM。
2. **制約付き条件付きデータ混合**: スウォーム型最適化に条件付き混合を重ねることで、遅着データソースを既存最適化結果を捨てずに統合する手法。
3. **Delta Learning の選好チューニングへの体系的適用**: SFT で飽和した後も、能力デルタの大きい対照ペアで選好チューニングが推論フロンティアを拡張することを実証。
4. **OlmoRL**: 長推論チェーン(平均 10K+ トークン)に対応した完全非同期・連続バッチング・インフライト更新の RL インフラ。
5. **RL-Zero**: 完全オープンなベースモデルから直接 RL を行い、事前学習データの RL への影響を追跡可能にした初のセットアップ。
## 実験設定
- **モデル**: 7B / 32B、decoder-only Transformer、SWA(4 層中 3 層がスライディングウィンドウ 4096、最終層フルアテンション)、コンテキスト 8192(事前学習)→ 65K(拡張後)
- **訓練インフラ**: 1024 H100 GPU、OLMo-core(PyTorch + torch.compile + FlashAttention)、bfloat16、7B: 7700 tok/s/GPU(43% MFU)、32B: 1960 tok/s/GPU(41% MFU)
- **訓練コスト**: 事前学習約 47 日 + 後訓練約 9 日 = 約 56 日、H100 換算 $2.75M
- **評価**: OlmoBaseEval(43 タスク、5 クラスタ: Math/Code/MC-STEM/MC-Non-STEM/GenQA + Held-out 4)、Chat Suite(17 タスク)
## 実験結果
### Base モデル
- OLMo 3 Base 32B は完全オープンモデルで最強。Stanford Marin 32B・Apertus 70B を数学・コードで 10 ポイント以上上回る。
- Qwen 2.5 32B・Gemma 3 27B に数ポイント差まで迫る。
### Think モデル
- OLMo 3.1 Think 32B: MATH 96.2、AIME 2024 80.6、AIME 2025 78.1、HumanEval+ 91.5、IFEval 93.8。
- Qwen 3 32B(MATH 95.4、AIME 2024 80.8)に匹敵し、6 分の 1 のトークン数で訓練。
- 各段階で一貫した改善: SFT → DPO → RL の全てで評価スコアが向上。
### Instruct モデル
- OLMo 3.1 Instruct 32B: AIME 2025 57.9(Qwen 3 32B No-Think 21.3 を 36.6 ポイント上回る)、IFBench 39.7(Qwen 3 32B 31.3 超え)。
### RL-Zero
- Base から直接 RL で、数学・コード・指示追従・一般の 4 ドメインで RL の効果を汚染なく測定可能。
### 長コンテキスト
- RULER 32K: OLMo 3 32B 86.22(Qwen 2.5 32B 92.67、Mistral Small 3.1 88.80 に次ぐ)。
- HELMET 32K: OLMo 3 32B 48.60(Gemma 3 27B 50.31 に次ぐ)。
## 考察
- **データカリキュラムのドメイン間トレードオフ**: 数学/コード重視のミッドトレーニングミックスは QA/MCQA を犠牲にし、逆も同様。最終ミックスは均衡を取るが最適解は未解決。
- **Delta Learning の有効性**: SFT で性能が飽和した後、同じ強力なモデルの出力を SFT に使うと性能が低下するが、より弱いモデルの出力との対照ペアにすると DPO で改善する。能力デルタの質が選好データの質を決定する。
- **DPO が RL の下地として機能**: DPO 開始の RL は SFT 開始より安定的かつ高性能。長さ制御付き DPO は「トークンあたりの知性」を高め、固定コンテキスト窓の RL で有利に働く。
- **思考トレースとミッドトレーニング**: 指示データと思考トレースをミッドトレーニングに含めると、後訓練前の段階からベース性能が全指標で向上する。
- **RL インフラのボトルネック**: RL 訓練の 75% はロールアウト推論の待機であり、推論に訓練の 5–14 倍の計算量を消費する。連続バッチングとインフライト更新がこの問題を緩和する。
## 強みと弱点
### 強み
- 全工程の完全な再現可能性と介入可能性は、オープン LLM 研究の基盤インフラとしての価値がある
- Delta Learning の体系的検証は選好チューニングの設計原則を明確化した
- OlmoRL の工学的改善(4 倍高速化)は長推論チェーン RL の実用性を大幅に向上させた
- RL-Zero は RL 研究のための初のクリーンなベンチマーキング環境を提供する
- OlmoBaseEval のタスククラスタリング・スケーリング分析・SNR 分析は、効率的なモデル開発の方法論として汎用的
### 弱点
- 長コンテキスト性能は Gemma 3 や Mistral Small 3.1 に及ばず、拡張段階のトークン予算(50–100B)の制約が示唆される
- チャット品質(AlpacaEval)で Qwen 3 に大きく劣る(69.1 対 75.6)
- MFU が 41–43% と比較的低く、訓練効率の改善余地がある
- 後訓練の理論が未成熟で、ハイパーパラメータ探索に多大な計算コストを要する
- 合成データ生成に GPT-4.1/GPT-5 等のプロプライエタリモデルを使用しており、完全なオープン再現性に限界がある
## 出典
- (Source: [[@2025__arXiv__OLMo 3]])