The-Big-LLM-Architecture-Comparison - yuuk1's Digital Garden

# The Big LLM Architecture Comparison 著者: [[Sebastian Raschka]] | 掲載: Substack (Sebastian Raschka's AI Magazine) 公開: 2025-07-19 / 最終更新: 2026-04-02(Gemma 4 追加) GPT-2(2019)から DeepSeek V3/Gemma 4(2025–2026)まで、主要オープンウェイト LLM のアーキテクチャ設計を体系的に比較する包括的サーベイ記事。ベンチマーク性能や訓練手法には踏み込まず、**構造的・アーキテクチャ的変化**のみを対象とする。 ## 主要なアーキテクチャ比較 ### 1. DeepSeek V3/R1 — MLA と MoE **Multi-Head Latent Attention (MLA)**: GQA の代替として DeepSeek-V2 で導入。K/V を低次元潜在空間に圧縮してから KV キャッシュに保存し、推論時に元の次元に射影する。DeepSeek-V2 のアブレーション研究では GQA より高いモデリング性能を示した。Q も訓練中は圧縮されるが推論時は非圧縮。 **Mixture-of-Experts (MoE)**: DeepSeek V3 は 671B パラメータ・256 エキスパートを持ちながら、推論時は 9 エキスパート(共有 1 + ルーティング 8)のみ活性化、実質 37B パラメータで動作。**共有エキスパート(shared expert)**は常時活性化し、汎用パターンを専担することで他のエキスパートが専門化できる。 ### 2. OLMo 2 — Post-Norm と QK-Norm - **Post-Norm**: Attention と FFN の後に RMSNorm を配置(GPT-2 系の Pre-Norm と逆)。訓練安定性の改善が狙い。 - **QK-Norm**: Attention 内部で Q と K に RoPE 適用前に RMSNorm を適用。2023 年の Scaling Vision Transformers 論文が初出。 ### 3. Gemma 3/4 — スライディングウィンドウアテンション - **スライディングウィンドウアテンション(SWA)**: グローバルアテンションとローカルアテンション(窓内のみ)を混在させる。Gemma 3 は 5:1 比率(5 スライディング: 1 グローバル)、ウィンドウサイズ 1024 トークン。 - KV キャッシュを大幅削減しつつモデリング性能への影響は軽微(アブレーション研究より)。 - **Pre+Post-Norm**: Gemma 3 は両 Attention モジュールの前後に RMSNorm を配置(独自設計)。 - **Gemma 4**: アーキテクチャはほぼ Gemma 3 と同じ。グローバルアテンション層で keys = values の再利用(KV キャッシュ削減)と p-RoPE(一部次元のみ RoPE)を追加。 ### 4. Mistral Small 3.1 標準的な GQA アーキテクチャ。以前の Mistral モデルで使われていた SWA は廃止。KV キャッシュとレイヤー数の削減で低レイテンシを実現。 ### 5. Llama 4 GQA + MoE の組み合わせ。DeepSeek V3 に類似する設計だが MLA ではなく GQA を採用。Maverick(400B 総パラメータ/17B 活性化)は MoE と密なレイヤーを交互に配置。 ### 6. Qwen3 - **Dense モデル**: 0.6B〜32B。Llama 3 より深く(層数多)・狭い(ヘッド数少)設計。QK-Norm を採用。 - **MoE モデル**: 30B-A3B / 235B-A22B。DeepSeek V3 に非常に類似するアーキテクチャ。**共有エキスパートを廃止**したのが主な差異。Qwen 開発者(Junyang Lin)は「有意な改善が見られず推論最適化の懸念もあった」と説明。 ### 7. SmolLM3 — NoPE - **NoPE(No Positional Embedding)**: 位置符号化を一切行わない。因果アテンションマスクによる暗黙の順序情報のみ。2023 年 NoPE 論文で長さ汎化の改善を実証。SmolLM3 では 4 層に 1 回の割合で適用(全層ではない)。 ### 8. Kimi K2 / Kimi K2 Thinking - DeepSeek V3 アーキテクチャをそのままスケールアップ(671B→1T パラメータ)。 - MoE エキスパート数増加・MLA ヘッド数減少が主な差異。 - **Muon オプティマイザ**: AdamW ではなく Muon を本番採用した初の 1T 規模モデル。 - **Kimi K2 Thinking**: アーキテクチャ変更なし、コンテキスト長を 128k→256k に拡張。 ### 9. GPT-OSS OpenAI 初のオープンウェイトモデル(GPT-2 以来)。gpt-oss-20b / gpt-oss-120b の 2 バリアント。 - **幅広・浅い設計**: Qwen3 30B-A3B と比べ埋め込み次元が大きく(2880 vs 2048)、層数は半分(24 vs 48)。 - **SWA**: 1 層おきにスライディングウィンドウアテンションを適用。 - **注意バイアス**: GPT-2 以来久しぶりにアテンション層のバイアスを採用。 - **アテンションシンク**: 学習可能なバイアスロジットとして実装(入力トークンを変更せずにシンク効果を実現)。 - **エキスパート設計**: 少数大型エキスパート(32 エキスパート・4 活性化)と Qwen3/DeepSeek の多数小型エキスパートとの対比。 ### 10. Grok 2.5 - 270B パラメータの実プロダクションモデル。少数大型エキスパート(8 エキスパート)という旧世代トレンドの設計。 - 常時活性化する SwiGLU モジュールが実質的な共有エキスパートとして機能。 ### 11. GLM-4.5 - 355B/106B MoE。関数呼び出し・エージェント型推論に最適化。 - DeepSeek V3 同様、最初の 3 層を密なレイヤーにして MoE 前の表現安定化を図る。 - 共有エキスパートあり(Qwen3 とは対照的)。 ### 12. Qwen3-Next — Gated DeltaNet ハイブリッドと MTP - **Gated DeltaNet + Gated Attention のハイブリッド(3:1 比)**: - Gated DeltaNet = デルタルール更新を用いる線形アテンション変種(Mamba-2 スタイルのゲーティング) - Gated Attention = GQA に出力ゲート・ゼロ中心化 QK-Norm・partial RoPE を追加した改良版 - 3 つの Gated DeltaNet ブロックに 1 つの Gated Attention ブロックを挟む配置でネイティブ 262k コンテキストを実現 - **MTP(マルチトークン予測)**: 投機的デコーディング用の MTP モジュールを統合。訓練と推論の一貫性を保つマルチステップ訓練を採用。 - **共有エキスパート復活**: 235B モデルでは廃止していたが Next では再導入。エキスパート数も 4 倍増。 ### 13. MiniMax-M2 - Qwen3 とほぼ同じアーキテクチャ。**線形アテンションを廃止しフルアテンションに戻した**。 - **Per-layer QK-Norm**: 各アテンションヘッドに個別のスケールパラメータを持つ高粒度 QK-Norm。 - **部分 RoPE(partial RoPE)**: 各ヘッドの最初の `rotary_dim` 次元にのみ RoPE を適用。長コンテキスト外挿を改善。 - MoE スパーシティは Qwen3 の 2 倍(トークンあたりアクティブパラメータ率 4.37% vs 9.36%)。 ### 14. Kimi Linear - 3:1 比の Gated DeltaNet + MLA ハイブリッド(Qwen3-Next の Gated Attention を MLA に差し替え)。 - **Kimi Delta Attention (KDA)**: Qwen3-Next のスカラーゲートをチャネルワイズゲーティングに拡張した Gated DeltaNet の改良版。長コンテキスト推論の改善が目的。 - MLA 層で NoPE を採用(positional bias を KDA ブロックに委ねる設計)。 ### 15. Olmo 3 Thinking - Post-Norm を維持(OLMo 2 からの継承)。 - 7B では MHA + SWA、32B では GQA。YaRN でグローバルアテンション層のみコンテキスト延長。 - 訓練データ・訓練コード・チェックポイントを含む完全オープンソース。 ### 16. DeepSeek V3.2 - DeepSeek V3 に疎なアテンション(DSA: DeepSeek Sparse Attention)を追加して効率を改善。 - 詳細は著者の別記事を参照。 ### 17. Mistral 3 - 675B パラメータ MoE(39B 活性化)。2024 年以来初の MoE モデル。 - **DeepSeek V3 と同一アーキテクチャ**を採用。エキスパートサイズを 2 倍・エキスパート数を半分にした点が主な差異。独自トークナイザを使用。 - ビジョンエンコーダを追加してマルチモーダル対応。 ### 18. Nemotron 3 Nano - **Mamba-2 Transformer ハイブリッド MoE**: 52 層の設計。Mamba-2 ブロック + スパース MoE レイヤーを 13 マクロブロックで組み合わせ、一部の層にのみ GQA を配置。 - 128 エキスパート・6 活性化 + 共有 1。純粋 Transformer 比でトークン/秒スループットが大幅向上。 ### 18.2. Nemotron 3 Super - 120B パラメータ MoE(12B 活性化)。Nano のスケールアップ版。 - **潜在 MoE(Latent MoE)**: エキスパートが潜在次元(4096→1024)で動作し計算・通信コストを削減。 - **MTP を推論に活用**: 共有重み MTP ヘッドが内部ドラフトモデルとして機能し、外部ドラフトモデル不要の投機的デコーディングを実現。 - Qwen3.5 122B・GPT-OSS 120B と同等性能で 2〜2.2 倍高速。 ### 19. Xiaomi MiMo-V2-Flash - 309B MoE(15B 活性化)。SWA を 5:1 比率で採用、ウィンドウサイズは 128(Gemma 3 の 1/8)。 - DeepSeek V3.2 と同等のベンチマーク性能で半分のパラメータ。MTP も採用。 ### 20. Arcee AI Trinity Large - 400B MoE(13B 活性化)。 - SWA 3:1 比・ウィンドウサイズ 4096 + QK-Norm + NoPE(グローバル層) + ゲーテッドアテンション。 - **深さスケール付きサンドイッチノーム(depth-scaled sandwich norm)**: 4 つの RMSNorm をブロックに配置し、第 2 ノームのゲインを `1/√L` で初期化(L=層数)。 - DeepSeek スタイルの多数小型エキスパートを Mistral 3 同様に粗粒化。 ### 21. GLM-5 - 744B MoE(40B 活性化)。GLM-4.5 の後継。 - MLA + DSA を採用して長コンテキスト推論コストを削減。 - エキスパート数を 256 に増加(GLM-4.5 比 60% 増)、エンベディング次元も 5120→6144。 - 層数を 92→78 に削減(推論コスト・速度の改善目的)。 ### 22. Gemma 4 - 31B dense / 26B-A4B MoE の 2 バリアント。 - アーキテクチャは Gemma 3 からほぼ変更なし。 - **K=V 再利用**: グローバルアテンション層で values = keys を設定し KV キャッシュをさらに半減。 - **p-RoPE**: RoPE を適用する次元を 25% に限定し長コンテキストの位置ノイズを軽減。 ## 横断的知見 - **共有エキスパートの分岐**: DeepSeek V3・Kimi K2・GLM-4.5・GLM-5・Grok 2.5・Nemotron 3 が採用。Qwen3 が廃止→Qwen3-Next で再導入。Qwen3-Next の開発者は「有意な改善が見られなかった」と説明するが DeepSeek が維持するのとの矛盾は未解決。 - **線形アテンション再台頭と撤退**: Qwen3-Next・DeepSeek V3.2 が採用を進める一方、MiniMax-M2 は長コンテキスト推論・マルチターン精度の問題から撤退しフルアテンションに回帰。Kimi Linear はチャネルワイズゲーティング(KDA)で精度問題を改善したと主張し再び採用。 - **MLA の普及**: DeepSeek V3/V3.2、Kimi K2、Kimi Linear、GLM-5 が採用。GQA より実装が複雑だが KV キャッシュ削減と性能の両立を実現。 - **位置符号化の多様化**: RoPE(多数派)、Partial RoPE(MiniMax-M2)、NoPE(SmolLM3・Kimi Linear MLA 層)、p-RoPE(Gemma 4)が並立。 - **normalization の多様化**: Pre-Norm(GPT-2 系主流)、Post-Norm(OLMo 2 系)、Pre+Post-Norm(Gemma 2/3/4)、QK-Norm(OLMo 2・Qwen3 等)が各々根拠を持って使われている。 - **幅 vs 深さ**: GPT-OSS が「幅広・浅い」設計を採用。Gemma 2 の先行研究では幅広が僅かに優位(9B パラメータ固定)。Qwen3 は「深い」設計。ただし比較は参照条件が異なり直接比較は困難。 - **MTP の投機的デコーディング活用**: DeepSeek V3 は訓練にのみ MTP を使用していたが、Qwen3-Next・Nemotron 3 Super は推論時にも MTP ヘッドを投機的デコーディングの内部ドラフトモデルとして活用する方向へ進化。 ## 未解決の問い - 共有エキスパートはモデル規模・エキスパート数に依存して有効性が変わるのか(Qwen3-Next の再導入とエキスパート数増加の同時変更で分離評価が難しい)。 - 線形アテンション(Gated DeltaNet)は長コンテキスト・マルチターン推論での精度問題を構造的に解決できるのか、それとも MiniMax-M2 の判断(フルアテンションへの回帰)が正しいのか。 - SWA ウィンドウサイズの最適値はモデル規模・タスクによってどう変わるか(Gemma: 1024、Arcee: 4096、Xiaomi: 128 と大きく異なる)。 - GPT-OSS の注意バイアスとアテンションシンクの設計は性能に寄与しているか(単独アブレーションが未公開)。 ## 関連ページ - 概念: [[Multi-Head Latent Attention]] / [[Grouped-Query Attention]] / [[スライディングウィンドウアテンション]] / [[NoPE]] / [[QK-Norm]] / [[Gated DeltaNet]] / [[Mixture-of-Experts]] / [[マルチトークン予測]] / [[線形注意]] / [[Transformer]] - エンティティ: [[Sebastian Raschka]] / [[DeepSeek-V3]] / [[DeepSeek-V3.2]] / [[Kimi K2]] / [[Llama4]] / [[MiniMax-M2]] / [[Nemotron 3]] / [[OLMo 3]] / [[Allen Institute for AI]] / [[Gemma 3]] / [[Gemma 4]] / [[Qwen3]] / [[GPT-OSS]] / [[Grok 2.5]] / [[Mistral 3]] / [[SmolLM3]] / [[Kimi Linear]] / [[GLM-4.5]] / [[GLM-5]] / [[Xiaomi MiMo-V2-Flash]] / [[Arcee AI Trinity Large]] / [[OLMo 2]]