Gated DeltaNet - yuuk1's Digital Garden

# Gated DeltaNet ## 定義 Gated DeltaNet は線形アテンション変種([[線形注意]])の一つで、デルタルール更新とMamba-2 スタイルのゲーティングを組み合わせる。DeltaNet(線形アテンション + デルタルール)にゲーティング機構を追加した設計で、状態空間モデル([[状態空間モデル]])の系統に属する。論文: 「Gated Delta Networks: Improving Mamba2 with Delta Rule」(2024) ## 動作原理通常のアテンションが Q・K・V の内積計算(二次計算量 O(n²))で動作するのに対し、Gated DeltaNet は**高速重み(fast-weight)メモリ**にデルタルール更新で書き込み・読み出しを行う。 ``` 通常アテンション: attn = softmax(QK^T / √d) V ← O(n²d) Gated DeltaNet: state ← α · state + β · (v - k^T state) k^T ← O(nd) ``` α(忘却ゲート)と β(学習ゲート)は各トークンに対してパラメータから計算される。線形・軽量畳み込みから q, k, v, α, β を生成する点が RNN・Mamba との相違。 ## フルアテンションとの比較 | 特性 | Gated DeltaNet | フルアテンション(GQA 等) | |------|----------------|--------------------------| | 計算量 | O(n) | O(n²) | | KV キャッシュ | 固定サイズの隠れ状態 | シーケンス長に比例 | | コンテンツベース検索 | 近似(精度に制限) | 精密 | | 長コンテキスト | 線形スケール | 二次スケール(高コスト) | コンテンツベース検索の精度がフルアテンションより劣るため、Qwen3-Next と Kimi Linear はフルアテンション層との**ハイブリッド設計**を採用する。 ## 採用モデルとハイブリッド設計 ### Qwen3-Next **3:1 比率** — 3 つの Gated DeltaNet ブロックに 1 つの Gated Attention ブロックを配置。 - Gated Attention = GQA + 出力ゲート + ゼロ中心化 QK-Norm + partial RoPE - ネイティブ 262k コンテキスト(以前の 32k / YaRN 拡張 131k から大幅拡張) ### Kimi Linear (Kimi Delta Attention / KDA) **3:1 比率** — 3 つの KDA ブロックに 1 つの MLA ブロックを配置(Qwen3-Next の Gated Attention を MLA に差し替え)。 - **KDA** = Gated DeltaNet の改良版。スカラーゲート → **チャネルワイズゲート**(各特徴次元ごとに独立の忘却・学習率)。長コンテキスト推論の改善が目的。 - MLA 層では NoPE を採用(位置情報を KDA に委ねる)。 Kimi Linear 論文は Gated DeltaNet-H1(スライディングウィンドウ付き DeltaNet)と比較し、同等の生成速度で高いベンチマーク性能を示した。 ## 線形アテンション「再台頭」の文脈 2025 年後半に Qwen3-Next・DeepSeek V3.2・Kimi Linear が線形アテンション変種を採用し「再台頭」。しかし MiniMax-M2 はいったん採用した線形アテンション(lightning attention)を廃止しフルアテンションに回帰。 > MiniMax チームの説明: 「線形アテンションは本番 LLM でトリッキー。通常プロンプトは問題ないが、推論・マルチターンタスクで精度が低下する。」 Kimi Linear はチャネルワイズゲーティングの導入でこの問題に対処したと主張するが、Kimi Linear は 48B と小規模(Kimi K2 の 1/20)であり大規模での検証は今後の課題。 ## 横断的知見 - **Mamba-2 との関係**: Gated DeltaNet は「DeltaNet に Mamba-2 スタイルのゲーティングを加えた」モデル。[[状態空間モデル]]の系統で、高速重みメモリは Mamba の状態更新則と相補的な設計。 - **Nemotron 3 との対比**: NVIDIA の Nemotron 3 Nano は Mamba-2 ブロックを採用するが、Qwen3-Next/Kimi Linear とは異なる実装。いずれも「フルアテンションを少数の層に限定し残りを効率的な線形機構に置き換える」という設計思想は共通。 - **コンテキスト拡張の鍵**: 線形アテンションは固定サイズの隠れ状態で任意長のコンテキストを扱える。Qwen3-Next が 32k→262k に拡張できた背景にはこの特性がある。 ## 未解決の問い - KDA のチャネルワイズゲーティングは MiniMax-M2 が指摘した「推論・マルチターンの精度低下」を根本解決しているか、それとも特定の設定でのみ有効か。 - 大規模モデル(100B 以上)での Gated DeltaNet の品質は未検証。Kimi K2 後継(K3 等)での採用検討が注目点。 ## 関連 - 概念: [[線形注意]] / [[状態空間モデル]] / [[マルチトークン予測]] / [[NoPE]] / [[Multi-Head Latent Attention]] - エンティティ: [[Qwen3-Next]] / [[Kimi Linear]] - ソース: [[The Big LLM Architecture Comparison]]