## 定義
Transformer は、再帰(リカレンス)および畳み込みを一切用いず、自己アテンション(self-attention)メカニズムのみに基づく系列変換モデルアーキテクチャである。エンコーダとデコーダの双方を、マルチヘッド自己アテンション・位置ごとのフィードフォワードネットワーク・残差接続・レイヤー正規化からなる同一ブロックの積み重ねで構成する。系列中の任意の 2 位置間の依存関係を定数回の演算で捉えられるため、RNN の逐次計算制約を解消し、高い並列化可能性と短い訓練時間を実現する(Source: [[@2017__NeurIPS__Attention Is All You Need]])。
## 横断的知見
- Transformer のデコーダのみの変種が GPT シリーズ([[@2018__OpenAI__Improving Language Understanding by Generative Pre-Training]]、[[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]]、[[@2020__NeurIPS__Language Models are Few-Shot Learners]])を通じて言語モデルの支配的アーキテクチャとなった。原論文のエンコーダ・デコーダ構成よりも、核となる自己アテンションメカニズムそのものが根本的な貢献であったことを示す。(Source: [[@2017__NeurIPS__Attention Is All You Need]], [[@2018__OpenAI__Improving Language Understanding by Generative Pre-Training]])
- GPT-1(117M)から GPT-3(175B)まで、Transformer アーキテクチャはパラメータ数で 3 桁のスケーリングを基本構造の変更なしに達成した。修正は残差接続のスケーリング(GPT-2)、疎アテンションパターンの部分採用(GPT-3)といった微調整にとどまり、アーキテクチャのスケーラビリティが極めて高いことを実証する。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]], [[@2020__NeurIPS__Language Models are Few-Shot Learners]])
- この wiki に存在する [[Mixture-of-Experts]]、[[マルチトークン予測]]、[[LLM推論]]、[[LLM分散学習]]、[[並列化戦略]]、[[耐障害LLM訓練]]、[[チェックポイント]]、[[LLMスケーリング則]] 等の概念は、いずれも Transformer アーキテクチャを共通基盤として前提しており、Transformer はこの wiki の機械学習領域における基底的概念である。
## 未解決の問い
- 自己アテンションの計算量は系列長の二乗($O(n^2 \cdot d)$)に比例する。原論文では制限付き自己アテンション(近傍 $r$ 位置のみ参照、最大パス長 $O(n/r)$)を将来課題として言及するにとどまる。線形アテンション、スパースアテンション等による根本的解決の進展はどこまで来ているか。
- 正弦波位置エンコーディングは訓練時に遭遇しない系列長への外挿可能性を仮説するが、実証は限定的である。RoPE(Rotary Position Embedding)、ALiBi 等の後続手法との比較で、位置エンコーディングの最適形式は定まったか。
- 原論文はテキスト以外のモダリティ(画像・音声・映像)への拡張を将来方向として挙げる。Vision Transformer 等による実現状況を追跡する。
## 関連
- [[@2017__NeurIPS__Attention Is All You Need]]
- [[LLM推論]]
- [[Mixture-of-Experts]]
- [[マルチトークン予測]]
- [[並列化戦略]]
- [[LLM分散学習]]
- [[耐障害LLM訓練]]
- [[LLMスケーリング則]]
## 出典
- [[@2017__NeurIPS__Attention Is All You Need]]