@2025__arXiv__OLMo 3 - yuuk1's Digital Garden

# OLMo 3 Navigation: [[sources/_index]] | [[index]] ## Abstract 訳 OLMo 3 は、7B および 32B パラメータ規模での最先端かつ完全オープンな言語モデルファミリーである。長コンテキスト推論、関数呼び出し、コーディング、指示追従、一般チャット、知識想起を対象能力とする。このリリースはモデルフロー全体、すなわち全段階・チェックポイント・データポイント・依存関係を含むモデルのライフサイクル全体を公開する。フラッグシップモデル OLMo 3.1 Think 32B は、現時点で最強の完全オープン思考モデルである。 ## 論文情報 - **著者**: OLMo Team — [[Allen Institute for AI]]（AI2）を中心に [[University of Washington]]、[[Carnegie Mellon University]]、[[Stanford University]]、Mila / Université de Montréal、[[Princeton University]]、[[MIT]]、University of Maryland の 50 名超 - **発表**: arXiv:2512.13961v2 [cs.CL], 2025-12-18（v2: 2026-04-14） - **キーワード**: オープン LLM、モデルフロー、事前学習、ミッドトレーニング、長コンテキスト拡張、SFT、DPO、RLVR、Delta Learning ## 概要 OLMo 3 は「モデルの最終重みだけでなくモデルフロー全体を公開する」という方針のもと、事前学習から後訓練までの全工程を透明化した完全オープン LLM ファミリーである。Base・Think・Instruct・RL-Zero の 4 変種を提供し、各段階のデータ（Dolma 3 / Dolci）、コード（OLMo-core / Open Instruct）、評価基盤（OlmoBaseEval / OLMES）、訓練ログのすべてを公開する。 ## 問題設定オープンウェイトモデル（Qwen、Gemma、Llama 等）は最終重みのみを公開し、中間チェックポイント・訓練データ・データレシピは非公開である。この不透明性は (1) 任意段階での介入によるカスタマイズを阻害し、(2) 事前学習データが後訓練（特に RL）性能に与える影響の研究を不可能にし、(3) ベンチマーク汚染の検出を困難にする。 ## 提案手法 ### ベースモデル訓練（3 段階） 1. **事前学習（Dolma 3 Mix, 5.9T トークン）**: CommonCrawl からの 8T ウェブテキスト、olmOCR で変換した 972B トークンの学術 PDF、Stack-Edu コード、FineMath 数学ウェブページ、Wikipedia を含む 9T プールから品質認識型アップサンプリングと制約付きデータ混合で 6T ミックスを構築。Duplodocus による兆トークン規模のグローバル重複排除（3 段階: 完全一致 67% 除去 → MinHash ファジー 23% → サフィックス配列部分文字列 14%）。WebOrganizer による 24 トピック × 20 品質バケットの 480 分割、スウォーム型最適化による混合比の決定。 2. **ミッドトレーニング（Dolma 3 Dolmino Mix, 100B トークン）**: 数学（CraneMath, MegaMatt, Dolmino Math 等 5 種合成）、コード（CraneCode, Stack-Edu FIM）、QA（Reddit-to-Flashcards, Wiki-to-RCQA, Nemotron）、思考トレース（メタ推論、プログラム検証可能データ、既存トレースのリライト）、指示データ（Tulu 3 SFT, Flan）の多領域合成データを、マイクロアニール（軽量分散フィードバックループ）と統合テスト（集中評価）の 2 段方法論で 5 ラウンド反復キュレーション。 3. **長コンテキスト拡張（Dolma 3 Longmino Mix, 50–100B トークン）**: olmOCR 学術 PDF（32K+ トークン文書 450 万件、640B トークン）を基盤に、CWE/REX 合成集約タスクで長距離依存の教師信号を注入。YaRN をフルアテンション層のみに適用、文書パッキングと文書内マスキングで 65K コンテキストに拡張。 ### 後訓練（3 段階 × 3 変種） - **Think（推論特化）**: SFT（Dolci Think SFT, 約 225 万例）→ DPO（Delta Learning: Qwen 3 32B chosen / Qwen 3 0.6B rejected で能力デルタを最大化）→ RLVR（OlmoRL: 数学・コード・指示追従・一般チャットの 4 ドメイン、検証可能報酬 + LLM ジャッジ）。 - **Instruct（効率的応答特化）**: Think SFT を出発点に、関数呼び出しデータ（MCP サーバ実トラジェクトリ + SimFC 合成トラジェクトリ）を追加した SFT → 長さ制御付き DPO（マルチターン選好、デルタ認識 GPT ジャッジ）→ RLVR。 - **RL-Zero**: Base から直接 RLVR。事前学習データが RL 性能に与える影響の研究用。汚染除去済み。 ### OlmoRL インフラ GRPO ベースに 7 つの改善（ゼロ勾配フィルタリング、アクティブサンプリング、トークンレベル損失、KL 損失なし、クリップハイヤー、切断重要度サンプリング、標準偏差正規化なし）を組み込んだ目的関数。完全非同期訓練（DeepSpeed 学習器 + vLLM アクタープール）、連続バッチング、インフライトモデル更新で、OLMo 2 比 4 倍の RL 訓練スループットを実現。 **Figure 20: モデル構成** ![[_attachments/arxiv-2512.13961/fig20-model.png]] (Figure 20. This suggests that the DPO model remains a strong starting point for RL relative to the SFT model, as prior work (Yue et に関するモデル構成を示す。) **Figure 21: モデル構成** ![[_attachments/arxiv-2512.13961/fig21-model.png]] (Figure 21. This suggests that mixing data may in fact reduce the model’s tendency to over-optimize during training, preventing some に関するモデル構成を示す。) ## 新規性 1. **モデルフロー全体の完全公開**: 全中間チェックポイント、全データミックス（訓練用 + 元プール）、全コード、全訓練ログを公開した初の SOTA 級 LLM。 2. **制約付き条件付きデータ混合**: スウォーム型最適化に条件付き混合を重ねることで、遅着データソースを既存最適化結果を捨てずに統合する手法。 3. **Delta Learning の選好チューニングへの体系的適用**: SFT で飽和した後も、能力デルタの大きい対照ペアで選好チューニングが推論フロンティアを拡張することを実証。 4. **OlmoRL**: 長推論チェーン（平均 10K+ トークン）に対応した完全非同期・連続バッチング・インフライト更新の RL インフラ。 5. **RL-Zero**: 完全オープンなベースモデルから直接 RL を行い、事前学習データの RL への影響を追跡可能にした初のセットアップ。 ## 実験設定 - **モデル**: 7B / 32B、decoder-only Transformer、SWA（4 層中 3 層がスライディングウィンドウ 4096、最終層フルアテンション）、コンテキスト 8192（事前学習）→ 65K（拡張後） - **訓練インフラ**: 1024 H100 GPU、OLMo-core（PyTorch + torch.compile + FlashAttention）、bfloat16、7B: 7700 tok/s/GPU（43% MFU）、32B: 1960 tok/s/GPU（41% MFU） - **訓練コスト**: 事前学習約 47 日 + 後訓練約 9 日 = 約 56 日、H100 換算 $2.75M - **評価**: OlmoBaseEval（43 タスク、5 クラスタ: Math/Code/MC-STEM/MC-Non-STEM/GenQA + Held-out 4）、Chat Suite（17 タスク） ## 実験結果 ### Base モデル - OLMo 3 Base 32B は完全オープンモデルで最強。Stanford Marin 32B・Apertus 70B を数学・コードで 10 ポイント以上上回る。 - Qwen 2.5 32B・Gemma 3 27B に数ポイント差まで迫る。 ### Think モデル - OLMo 3.1 Think 32B: MATH 96.2、AIME 2024 80.6、AIME 2025 78.1、HumanEval+ 91.5、IFEval 93.8。 - Qwen 3 32B（MATH 95.4、AIME 2024 80.8）に匹敵し、6 分の 1 のトークン数で訓練。 - 各段階で一貫した改善: SFT → DPO → RL の全てで評価スコアが向上。 ### Instruct モデル - OLMo 3.1 Instruct 32B: AIME 2025 57.9（Qwen 3 32B No-Think 21.3 を 36.6 ポイント上回る）、IFBench 39.7（Qwen 3 32B 31.3 超え）。 ### RL-Zero - Base から直接 RL で、数学・コード・指示追従・一般の 4 ドメインで RL の効果を汚染なく測定可能。 ### 長コンテキスト - RULER 32K: OLMo 3 32B 86.22（Qwen 2.5 32B 92.67、Mistral Small 3.1 88.80 に次ぐ）。 - HELMET 32K: OLMo 3 32B 48.60（Gemma 3 27B 50.31 に次ぐ）。 **Table 6: 表** ![[_attachments/arxiv-2512.13961/table6-table.png]] (Table 6. 論文中の主要な表を示す。) **Figure 13: アーキテクチャ** ![[_attachments/arxiv-2512.13961/fig13-architecture.png]] (Figure 13. While developing this recipe, we carefully analyze and isolate architectural design decisions that have profound impact に関するアーキテクチャを示す。) **Table 23: モデル構成** ![[_attachments/arxiv-2512.13961/table23-model.png]] (Table 23. For each ablation, we ran a benchmark experiment for 2 hours using 2 8x A100 nodes. One node was used for training, and に関するモデル構成を示す。) ## 考察 - **データカリキュラムのドメイン間トレードオフ**: 数学/コード重視のミッドトレーニングミックスは QA/MCQA を犠牲にし、逆も同様。最終ミックスは均衡を取るが最適解は未解決。 - **Delta Learning の有効性**: SFT で性能が飽和した後、同じ強力なモデルの出力を SFT に使うと性能が低下するが、より弱いモデルの出力との対照ペアにすると DPO で改善する。能力デルタの質が選好データの質を決定する。 - **DPO が RL の下地として機能**: DPO 開始の RL は SFT 開始より安定的かつ高性能。長さ制御付き DPO は「トークンあたりの知性」を高め、固定コンテキスト窓の RL で有利に働く。 - **思考トレースとミッドトレーニング**: 指示データと思考トレースをミッドトレーニングに含めると、後訓練前の段階からベース性能が全指標で向上する。 - **RL インフラのボトルネック**: RL 訓練の 75% はロールアウト推論の待機であり、推論に訓練の 5–14 倍の計算量を消費する。連続バッチングとインフライト更新がこの問題を緩和する。 ## 強みと弱点 ### 強み - 全工程の完全な再現可能性と介入可能性は、オープン LLM 研究の基盤インフラとしての価値がある - Delta Learning の体系的検証は選好チューニングの設計原則を明確化した - OlmoRL の工学的改善（4 倍高速化）は長推論チェーン RL の実用性を大幅に向上させた - RL-Zero は RL 研究のための初のクリーンなベンチマーキング環境を提供する - OlmoBaseEval のタスククラスタリング・スケーリング分析・SNR 分析は、効率的なモデル開発の方法論として汎用的 ### 弱点 - 長コンテキスト性能は Gemma 3 や Mistral Small 3.1 に及ばず、拡張段階のトークン予算（50–100B）の制約が示唆される - チャット品質（AlpacaEval）で Qwen 3 に大きく劣る（69.1 対 75.6） - MFU が 41–43% と比較的低く、訓練効率の改善余地がある - 後訓練の理論が未成熟で、ハイパーパラメータ探索に多大な計算コストを要する - 合成データ生成に GPT-4.1/GPT-5 等のプロプライエタリモデルを使用しており、完全なオープン再現性に限界がある ## 出典 - (Source: [[@2025__arXiv__OLMo 3]])