# OLMo 2
[[Allen Institute for AI]] が 2025 年 1 月に公開した透明性重視のオープンウェイト LLM。訓練データ・コード・アーキテクチャを詳細公開。
## アーキテクチャの特徴
- **Post-Norm(OLMo 2 フレーバー)**: アテンションと FFN の後に RMSNorm を配置(残差接続の内側)。GPT-2 等の Pre-Norm と逆。Xiong 等 2020 が示した Pre-Norm の勾配安定性メリットに反するが、OLMo 2 の実験では安定性が改善。
- **QK-Norm**: アテンション内部の Q/K に RMSNorm。Post-Norm と組み合わせで訓練損失のスパイクを大幅削減。
- **MHA**: GQA ではなく従来の Multi-Head Attention を採用(後に 32B バリアントで GQA 採用)。
## 位置づけ
公開当時(2025-01)、Llama 4・Gemma 3・Qwen3 公開前において計算量あたり性能のパレートフロンティア付近に位置。ベンチマーク上位には入らないが訓練透明性でリファレンス実装として機能。
## 後継モデル
[[OLMo 3]](2025-11 公開): Post-Norm を継承しつつ SWA を追加。7B では MHA + SWA、32B では GQA を採用。
## 関連
- エンティティ: [[Allen Institute for AI]] / [[OLMo 3]]
- 概念: [[QK-Norm]] / [[Grouped-Query Attention]]
- ソース: [[The Big LLM Architecture Comparison]]