線形注意 - yuuk1's Digital Garden

# 線形注意 ## 定義線形注意（Linear Attention）は、通常の Transformer における $\exp(\langle c_i, q \rangle)$ という指数カーネルを、有限次元の特徴マップ $\phi$ で近似できるカーネル関数に置き換えることで、アテンション計算を系列長に対して線形時間に削減する手法の総称である。有限次元特徴マップ $\phi$ を用いると $k(c, q) \approx \langle \phi(c), \phi(q) \rangle$ と表せ、アテンション出力が固定次元ベクトル状態の RNN として正確に実装できる。Katharopoulos+ (ICML 2020) が代表例として知られる。(Source: [[joisino-トランスフォーマーはRNN-2024]]) ## 横断的知見 - Transformer のアテンション機構はカーネル法として統一的に記述でき、カーネルの選択によって通常の Transformer（無限次元・$O(n^2)$）から線形注意モデル（有限次元・$O(n)$）まで連続的なスペクトルをなす。(Source: [[joisino-トランスフォーマーはRNN-2024]]) - どのカーネルを選ぶと精度と効率が両立できるかは現在でも活発に研究されているトピックとされる。ランダム特徴量（Performer）、ナイストローム近似、データ適応型圧縮など複数のアプローチが存在する。(Source: [[joisino-トランスフォーマーはRNN-2024]]) - **ハイブリッドでの線形注意は「理論上無制限の受容野」を持つが長コンテキスト検索の主体ではない**: Lightning Attention・Mamba-2・Gated DeltaNet のいずれも再帰状態として原理上無制限の受容野を持つにもかかわらず、ハイブリッドモデルの長コンテキスト能力はフルアテンション層が主に担う。受容野制約実験で効率的注意(再帰型含む)を $H \approx 2048$ に制限しても $\log(\text{LongPPL})$ への影響は軽微だが、フルアテンションを同様に制限すると大幅に劣化する。(Source: [[@2026__arXiv__Rethinking the Role of Efficient Attention in Hybrid Architectures]]) - **MiniMax-M2 の撤退と Kimi Linear の反論**: MiniMax-M2 は Lightning Attention を廃止してフルアテンションに回帰。「推論・マルチターンで精度低下」が理由。Kimi Linear はチャネルワイズゲーティング(KDA)で同問題に対処したと主張。ただし大規模未検証。(Source: [[The-Big-LLM-Architecture-Comparison|The Big LLM Architecture Comparison]]) - **実装解説は Linear Attention の弱点を Speculative Decoding との相性という別角度から指摘する**: LLM高速化の勉強会資料は、Linear Attention が KV の代わりに前の hidden_state を使う都合上、採択トークン数に応じて途中までの状態を破棄する Speculative Decoding 的手法に弱いと述べる。これは MiniMax-M2 が挙げる「推論・マルチターンでの精度低下」とは異なる系統の弱点であり、Linear Attention の実用上の制約が精度面と実装面(他の高速化手法との組み合わせ)の双方に及ぶことを示す。(Source: [[The-Big-LLM-Architecture-Comparison|The Big LLM Architecture Comparison]], [[@2026__SpeakerDeck__LLM高速化(勉強会)]]) ## 未解決の問い - 線形注意モデルは通常の Transformer と比べてどの程度の性能劣化をどのタスクで示すか。テキスト・動画・音声でのトレードオフはどう異なるか。 - 推論時に RNN モードで動かすことで得られる計算量・メモリの削減は、実装上どの程度の難易度か（既存の FlashAttention 等との比較）。 - 再帰型混合器が「理論上無制限の受容野」を持つにもかかわらずフルアテンションよりも長距離検索能力が低いのはなぜか。SWA(有限ウィンドウ)と再帰型が同等の長コンテキスト性能収束を示す理由はフルアテンション層の共有で説明されるが、再帰状態自体はなぜ長距離検索に貢献しないのか。(Source: [[@2026__arXiv__Rethinking the Role of Efficient Attention in Hybrid Architectures]]) ## 関連 - [[Transformer]] — 線形注意で近似される元のアーキテクチャ - [[RNN]] — 線形注意モデルが RNN として等価実装できる先 - [[カーネル法]] — 線形注意を統一的に記述するフレームワーク - [[状態空間モデル]] — 線形注意の一種として位置づけられる Mamba などが属するクラス - [[joisino-トランスフォーマーはRNN-2024]] — Katharopoulos+ ICML 2020 への言及を含む ## 出典 - [[joisino-トランスフォーマーはRNN-2024]]（§「有限次元へ」） - [[The-Big-LLM-Architecture-Comparison|The Big LLM Architecture Comparison]] (§14 線形アテンション再台頭、Kimi Linear、MiniMax-M2 の撤退) ## 2025 年の線形注意再台頭と産業動向 2020 年代前半の線形注意の試みはモデル精度の劣化により普及しなかった。しかし 2025 年後半に再台頭の動きが見られた: **採用モデル(2025 年後半〜)**: - **MiniMax-M1**(2025-06): Lightning Attention を採用した 456B MoE モデル。 - **Qwen3-Next**(2025-09): [[Gated DeltaNet]] + Gated Attention の 3:1 ハイブリッドでネイティブ 262k コンテキストを実現。 - **DeepSeek V3.2**(2025-12): 疎なアテンション変種(DSA)を採用。 - **Kimi Linear**(2025-10): Kimi Delta Attention(KDA) + MLA の 3:1 ハイブリッド。 **撤退モデル**: - **MiniMax-M2**(2025 後半): M1 で採用した Lightning Attention を廃止しフルアテンションに回帰。理由: 「線形アテンションは通常プロンプトでは問題ないが、推論・マルチターンタスクで精度が低下する。」 **Kimi Linear の反論**: チャネルワイズゲーティング(KDA)でこの精度問題に対処したと主張。Gated DeltaNet-H1 と同等の生成速度・高いベンチマーク性能を示した。ただし Kimi Linear は 48B(Kimi K2 の 1/20)で大規模モデルへの適用は未検証。 **横断的知見**: MiniMax-M2 の「線形アテンション → フルアテンション回帰」は線形アテンションの精度問題が特定設定に限定されない可能性を示唆。Kimi Linear がこの問題を解決できるかは今後の大規模検証が必要。(Source: [[The-Big-LLM-Architecture-Comparison|The Big LLM Architecture Comparison]])