OLMo 3 - yuuk1's Digital Garden

# OLMo 3 [[Allen Institute for AI]]（AI2）が開発する完全オープンな LLM ファミリー。7B および 32B パラメータの 2 規模で、Base・Think・Instruct・RL-Zero の 4 変種を提供する。decoder-only Transformer アーキテクチャに Sliding Window Attention（4 層中 3 層が 4096 トークンのスライディングウィンドウ、残り 1 層がフルアテンション）を採用し、事前学習コンテキスト長 8192、長コンテキスト拡張後 65K トークンに対応する。訓練は 3 段階のベースモデル訓練（事前学習 5.9T トークン → ミッドトレーニング 100B → 長コンテキスト拡張 50–100B）と、3 段階の後訓練（SFT → DPO → RLVR）で構成される。1024 基の H100 GPU で約 56 日間、推定コスト約 275 万ドル。フラッグシップ OLMo 3.1 Think 32B は MATH 96.2、AIME 2024 80.6 を達成し、完全オープンモデルとして最強。Qwen 3 32B に迫る性能を 6 分の 1 のトークン数で実現する。(Source: [[@2025__arXiv__OLMo 3]]) ## 関連 - ソース: [[@2025__arXiv__OLMo 3]] - 開発組織: [[Allen Institute for AI]] - 訓練データ: [[Dolma 3]] / [[Dolci]] - 訓練インフラ: [[OlmoRL]] / OLMo-core / Open Instruct - 評価基盤: [[OlmoBaseEval]] / OLMES - 関連概念: [[強化ファインチューニング]] / [[LLM分散学習]]