OLMo 2 - yuuk1's Digital Garden

# OLMo 2 [[Allen Institute for AI]] が 2025 年 1 月に公開した透明性重視のオープンウェイト LLM。訓練データ・コード・アーキテクチャを詳細公開。 ## アーキテクチャの特徴 - **Post-Norm(OLMo 2 フレーバー)**: アテンションと FFN の後に RMSNorm を配置(残差接続の内側)。GPT-2 等の Pre-Norm と逆。Xiong 等 2020 が示した Pre-Norm の勾配安定性メリットに反するが、OLMo 2 の実験では安定性が改善。 - **QK-Norm**: アテンション内部の Q/K に RMSNorm。Post-Norm と組み合わせで訓練損失のスパイクを大幅削減。 - **MHA**: GQA ではなく従来の Multi-Head Attention を採用(後に 32B バリアントで GQA 採用)。 ## 位置づけ公開当時(2025-01)、Llama 4・Gemma 3・Qwen3 公開前において計算量あたり性能のパレートフロンティア付近に位置。ベンチマーク上位には入らないが訓練透明性でリファレンス実装として機能。 ## 後継モデル [[OLMo 3]](2025-11 公開): Post-Norm を継承しつつ SWA を追加。7B では MHA + SWA、32B では GQA を採用。 ## 関連 - エンティティ: [[Allen Institute for AI]] / [[OLMo 3]] - 概念: [[QK-Norm]] / [[Grouped-Query Attention]] - ソース: [[The Big LLM Architecture Comparison]]