# 線形注意
## 定義
線形注意(Linear Attention)は、通常の Transformer における $\exp(\langle c_i, q \rangle)$ という指数カーネルを、有限次元の特徴マップ $\phi$ で近似できるカーネル関数に置き換えることで、アテンション計算を系列長に対して線形時間に削減する手法の総称である。有限次元特徴マップ $\phi$ を用いると $k(c, q) \approx \langle \phi(c), \phi(q) \rangle$ と表せ、アテンション出力が固定次元ベクトル状態の RNN として正確に実装できる。Katharopoulos+ (ICML 2020) が代表例として知られる。(Source: [[joisino-トランスフォーマーはRNN-2024]])
## 横断的知見
- Transformer のアテンション機構はカーネル法として統一的に記述でき、カーネルの選択によって通常の Transformer(無限次元・$O(n^2)$)から線形注意モデル(有限次元・$O(n)$)まで連続的なスペクトルをなす。(Source: [[joisino-トランスフォーマーはRNN-2024]])
- どのカーネルを選ぶと精度と効率が両立できるかは現在でも活発に研究されているトピックとされる。ランダム特徴量(Performer)、ナイストローム近似、データ適応型圧縮など複数のアプローチが存在する。(Source: [[joisino-トランスフォーマーはRNN-2024]])
## 未解決の問い
- 線形注意モデルは通常の Transformer と比べてどの程度の性能劣化をどのタスクで示すか。テキスト・動画・音声でのトレードオフはどう異なるか。
- 推論時に RNN モードで動かすことで得られる計算量・メモリの削減は、実装上どの程度の難易度か(既存の FlashAttention 等との比較)。
## 関連
- [[Transformer]] — 線形注意で近似される元のアーキテクチャ
- [[RNN]] — 線形注意モデルが RNN として等価実装できる先
- [[カーネル法]] — 線形注意を統一的に記述するフレームワーク
- [[状態空間モデル]] — 線形注意の一種として位置づけられる Mamba などが属するクラス
- [[joisino-トランスフォーマーはRNN-2024]] — Katharopoulos+ ICML 2020 への言及を含む
## 出典
- [[joisino-トランスフォーマーはRNN-2024]](§「有限次元へ」)