Lightning Attention - yuuk1's Digital Garden

# Lightning Attention Qin+ 2024b が提案した線形アテンション変種(TransNormer / Qin+ 2022a)の I/O アウェアな実装。[[MiniMax-M1]] および [[MiniMax-Text-01]] のハイブリッドアテンション設計における中核コンポーネントである。ソフトマックスアテンションの二次計算量を線形に置換し、推論時のテスト時計算を生成長に対して近似線形にスケールさせる。 MiniMax-M1 ではライトニングアテンションブロック 7 つに対しソフトマックスアテンションブロック 1 つの比率でハイブリッド化し、100 万トークンのネイティブコンテキスト長を実現。ライトニングアテンションでは前方/後方の層で減衰率が異なり、前方の層はより局所的な情報に注意する特性を持つ。この特性が長コンテキスト拡張時の勾配爆発の原因となりうるため、32K → 1M の 4 段階でスムーズに拡張する手法が採られた。 ## 出典 - [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]]（§1, §2.1, §3.2）