ハイブリッドアテンションアーキテクチャ

# ハイブリッドアテンションアーキテクチャ ## 定義ハイブリッドアテンションアーキテクチャ(Hybrid Attention Architecture)は、二次計算コストのかかるフルアテンション(full attention: softmax アテンション)と、線形時間または定数メモリで動作する効率的注意モジュール(スライディングウィンドウアテンション / 再帰型系列混合器)を交互に積み重ねたニューラルネットワーク。長コンテキスト対応と計算効率の両立が設計動機。 Gemma 3/4・Kimi K2・Qwen3-Next などの実用モデルが採用。フルアテンションと効率的注意の配置比率は設計によって異なるが、1:1(全層交互)〜1:3(効率的注意が 3 層に対しフルアテンション 1 層)が多い。 ### 主な効率的注意モジュール | 種別 | 代表的実装 | 受容野 | 訓練コスト | |------|----------|--------|-----------| | スライディングウィンドウアテンション(SWA) | $w \in \{128, 512, 2048\}$ | 固定ウィンドウ内 | 低 | | Lightning Attention | 固定減衰係数 $\gamma$ の線形注意 | 理論上無制限(指数減衰) | 低 | | Mamba-2 | 構造化状態空間二重性(SSD) | データ依存減衰 | 低 | | Gated DeltaNet (GDN) | GLA + デルタ則の組み合わせ | データ依存ゲート | 低 | ## 横断的知見 - **効率的注意はフルアテンションの最適化事前として機能する**: フルアテンション層が長距離検索を担い、効率的注意モジュール(SWA・再帰型とも)は直接的な長距離情報保持への寄与は小さい。異なるハイブリッドが同等の最終長コンテキスト性能に収束するのは、全ハイブリッドが共通のフルアテンションコンポーネントを持つためである。(Source: [[@2026__arXiv__Rethinking the Role of Efficient Attention in Hybrid Architectures]]) - **Large-Window Laziness**: SWA のウィンドウサイズが大きいほど、フルアテンション層における検索ヘッドの形成が遅れる。大ウィンドウ SWA は次トークン予測に必要な文脈をウィンドウ内で供給できるため、フルアテンションへの長距離検索シグナルが弱まる。勾配影響は距離 2048 を超えると平坦なベースラインへ収束するため、SWA-2048 がこの距離範囲のほぼ全体をカバーすることが遅延の原因。(Source: [[@2026__arXiv__Rethinking the Role of Efficient Attention in Hybrid Architectures]]) - **短コンテキスト vs 長コンテキストの分離**: 効率的注意の設計はバリデーション損失(短コンテキスト)には影響せず、$\log(\text{LongPPL})$(長コンテキスト)に主として影響する。これは短コンテキストと長コンテキスト性能が独立に最適化できる示唆を与える。(Source: [[@2026__arXiv__Rethinking the Role of Efficient Attention in Hybrid Architectures]]) - **産業モデルでの普及**: Gemma 3/4 の SWA+フルアテンション(5:1 比率)・Kimi Linear の GDN+MLA・Qwen3-Next の Gated DeltaNet ハイブリッドなど、SWA 系と再帰型の両路線が並行して製品モデルに採用されている。(Source: [[The Big LLM Architecture Comparison]]) - **MoE との組み合わせ**: DeepSeek-V3・Qwen3 など多くの最前線モデルが MoE と SWA/ハイブリッドを組み合わせる。この交差がアーキテクチャ設計空間の大部分を占める。(Source: [[The Big LLM Architecture Comparison]]) ## 未解決の問い - ハイブリッドにおいて「フルアテンション層の比率をどこまで削減できるか」(1:3 以上の sparse ratio で Large-Window Laziness の影響はどう変わるか)。 - SWA と再帰型混合器(Lightning/Mamba-2/GDN)を混在させたハイブリッド(head-wise 混合など)はそれぞれ単体ハイブリッドと比較してスケーリング挙動がどう変わるか。 - NoPE のフルアテンション層への適用は 7B・70B 規模でも同様の改善をもたらすか。また SWA 以外のハイブリッド(Mamba-2・GDN ベース)でも有効か。 - 充分な訓練(訓練量が多い)で異なるハイブリッドが収束するなら、実際の製品モデル訓練(データが限られる設定)での最適設計はどこか。 ## 関連 - 概念: [[線形注意]] / [[状態空間モデル]] / [[NoPE]] / [[スケーリング則]] / [[マルチトークン予測]] - ソース: [[@2026__arXiv__Rethinking the Role of Efficient Attention in Hybrid Architectures]] / [[The Big LLM Architecture Comparison]] ## 出典 - [[@2026__arXiv__Rethinking the Role of Efficient Attention in Hybrid Architectures]]（主要定義・Large-Window Laziness・NoPE 改善） - [[The Big LLM Architecture Comparison]]（産業採用動向）