Transformer - yuuk1's Digital Garden

## 定義 Transformer は、再帰（リカレンス）および畳み込みを一切用いず、自己アテンション（self-attention）メカニズムのみに基づく系列変換モデルアーキテクチャである。エンコーダとデコーダの双方を、マルチヘッド自己アテンション・位置ごとのフィードフォワードネットワーク・残差接続・レイヤー正規化からなる同一ブロックの積み重ねで構成する。系列中の任意の 2 位置間の依存関係を定数回の演算で捉えられるため、RNN の逐次計算制約を解消し、高い並列化可能性と短い訓練時間を実現する（Source: [[@2017__NeurIPS__Attention Is All You Need]]）。 ## 横断的知見 - Transformer のデコーダのみの変種が GPT シリーズ（[[@2018__OpenAI__Improving Language Understanding by Generative Pre-Training]]、[[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]]、[[@2020__NeurIPS__Language Models are Few-Shot Learners]]）を通じて言語モデルの支配的アーキテクチャとなった。原論文のエンコーダ・デコーダ構成よりも、核となる自己アテンションメカニズムそのものが根本的な貢献であったことを示す。(Source: [[@2017__NeurIPS__Attention Is All You Need]], [[@2018__OpenAI__Improving Language Understanding by Generative Pre-Training]]) - GPT-1（117M）から GPT-3（175B）まで、Transformer アーキテクチャはパラメータ数で 3 桁のスケーリングを基本構造の変更なしに達成した。修正は残差接続のスケーリング（GPT-2）、疎アテンションパターンの部分採用（GPT-3）といった微調整にとどまり、アーキテクチャのスケーラビリティが極めて高いことを実証する。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]], [[@2020__NeurIPS__Language Models are Few-Shot Learners]]) - この wiki に存在する [[Mixture-of-Experts]]、[[マルチトークン予測]]、[[LLM推論]]、[[LLM分散学習]]、[[並列化戦略]]、[[耐障害LLM訓練]]、[[チェックポイント]]、[[LLMスケーリング則]] 等の概念は、いずれも Transformer アーキテクチャを共通基盤として前提しており、Transformer はこの wiki の機械学習領域における基底的概念である。 - Transformer のアテンション機構はカーネル法として再定式化でき、KV キャッシュを特徴マップの線形和として畳み込むと固定次元状態ベクトル $w_n$ を持つ[[RNN]]に等価変換できる。同一モデルを訓練時は Transformer モード（並列計算）、推論時は RNN モード（定メモリ・定計算量）で動かせる。アテンション計算の「二乗時間」「並列化困難」という対立は固定的な性質ではなくモードの選択の問題である。(Source: [[joisino-トランスフォーマーはRNN-2024]]) ## 未解決の問い - 自己アテンションの計算量は系列長の二乗（$O(n^2 \cdot d)$）に比例する。原論文では制限付き自己アテンション（近傍 $r$ 位置のみ参照、最大パス長 $O(n/r)$）を将来課題として言及するにとどまる。線形アテンション、スパースアテンション等による根本的解決の進展はどこまで来ているか。 - 正弦波位置エンコーディングは訓練時に遭遇しない系列長への外挿可能性を仮説するが、実証は限定的である。RoPE（Rotary Position Embedding）、ALiBi 等の後続手法との比較で、位置エンコーディングの最適形式は定まったか。 - 原論文はテキスト以外のモダリティ（画像・音声・映像）への拡張を将来方向として挙げる。Vision Transformer 等による実現状況を追跡する。 - Transformer の RNN 等価性はアテンションカーネルの選択によって「状態次元のスペクトル」を形成する。無限次元カーネル（通常の Transformer）から有限次元カーネル（[[線形注意]]・[[状態空間モデル]]）まで連続的に配置でき、テキストには高次元、動画・音声には低次元が適するという設計指針が導ける。(Source: [[joisino-トランスフォーマーはRNN-2024]]) ## 関連 - [[@2017__NeurIPS__Attention Is All You Need]] - [[LLM推論]] - [[Mixture-of-Experts]] - [[マルチトークン予測]] - [[並列化戦略]] - [[LLM分散学習]] - [[耐障害LLM訓練]] - [[LLMスケーリング則]] - [[RNN]] — Transformer と等価変換される先 - [[線形注意]] — 有限次元カーネルによる Transformer の近似 - [[状態空間モデル]] — 線形注意モデルの具体実装クラス（Mamba、RWKV） - [[カーネル法]] — アテンション機構の統一的再解釈フレームワーク - [[文脈内学習]] — RNN 状態更新として数学的に説明される ## 出典 - [[@2017__NeurIPS__Attention Is All You Need]] - [[joisino-トランスフォーマーはRNN-2024]]