## Memo
### 論文情報
- **論文のタイトル**: Attention Is All You Need
- **著者と所属**:
- Ashish Vaswani (Google Brain)
- Noam Shazeer (Google Brain)
- Niki Parmar (Google Research)
- Jakob Uszkoreit (Google Research)
- Llion Jones (Google Research)
- Aidan N. Gomez (University of Toronto)
- Łukasz Kaiser (Google Brain)
- Illia Polosukhin
- **カンファレンス/ジャーナル名**: 31st Conference on Neural Information Processing Systems (NIPS 2017)
- **発表年**: 2017
### 論文概要
本論文は、従来の系列変換モデルで主流であったRNNやCNNを完全に排除し、注意機構(attention mechanism)のみに基づく新しいネットワークアーキテクチャ「Transformer」を提案している。提案モデルは機械翻訳タスクにおいて従来の最高性能を上回る結果を達成し、並列化が可能で訓練時間も大幅に短縮できることを実証した。このアーキテクチャは後の言語モデルの基盤となる革新的な貢献である。
### 詳細解説
#### 問題設定
問題設定は系列変換(sequence transduction)タスクであり、具体的には機械翻訳を主要なタスクとしている。入力は可変長のシンボル表現系列 (x₁, ..., xₙ) で、出力は同じく可変長のシンボル系列 (y₁, ..., yₘ) である。従来のモデルは複雑なRNNやCNNを用いたエンコーダ・デコーダ構造を採用していたが、これらには逐次計算による並列化の困難さや長距離依存関係の学習における課題があった。使用データは機械翻訳のための対訳コーパスで、WMT 2014 English-German(約450万文対)およびWMT 2014 English-French(3600万文対)を用いている。
#### 提案手法
提案手法であるTransformerは、エンコーダ・デコーダ構造を維持しながら、RNNやCNNを完全に排除し、自己注意機構(self-attention)とpoint-wise全結合層のみで構成される。
**主要コンポーネント:**
1. **Scaled Dot-Product Attention**:
```
Attention(Q, K, V) = softmax(QK^T / √dk)V
```
ここで、Q(クエリ)、K(キー)、V(値)は入力の線形変換であり、√dk による正規化が特徴的である。
2. **Multi-Head Attention**:
```
MultiHead(Q, K, V) = Concat(head₁, ..., headₕ)W^O
where headᵢ = Attention(QW^Q_i, KW^K_i, VW^V_i)
```
8つの並列な注意ヘッド(h=8)を用いて異なる表現部分空間の情報を同時に処理する。
3. **エンコーダ・デコーダ構造**: 各々6層のスタック(N=6)で構成され、各層は Multi-Head Attention、残差接続、レイヤー正規化、position-wise全結合ネットワークを含む。
4. **位置符号化**: 系列の位置情報を注入するため、正弦波・余弦波関数を使用:
```
PE(pos, 2i) = sin(pos/10000^(2i/dmodel))
PE(pos, 2i+1) = cos(pos/10000^(2i/dmodel))
```
#### 新規性
従来の系列変換モデルとの主要な差異は以下の通りである:
1. **完全な注意機構ベース**: RNNやCNNを一切使用せず、注意機構のみで構成した初めてのモデル
2. **並列化の実現**: RNNの逐次計算の制約を排除し、全ての位置を同時に処理可能
3. **計算複雑度の改善**: 自己注意層の計算量はO(n²·d)で、系列長n < 表現次元dの場合にRNN(O(n·d²))より高速
4. **長距離依存関係**: 任意の位置間を定数回の演算で結び、最大パス長がO(1)
先行研究との比較では、ByteNet、ConvS2Sなどの畳み込みベースモデルや、従来のRNNベースのGNMTなどに対して、性能と効率性の両面で優位性を示している。
#### 実験設定
**データセット:**
- WMT 2014 English-German: 約450万文対、バイトペア符号化による共有語彙37,000トークン
- WMT 2014 English-French: 3,600万文対、32,000語彙のワードピース
**評価指標:**
- BLEU score: 機械翻訳の標準評価指標
- Training cost: FLOPs(浮動小数点演算数)で計算コストを測定
- 開発セット: newstest2013 (English-German)、newstest2014 (テスト用)
**訓練設定:**
- ハードウェア: 8 NVIDIA P100 GPU
- オプティマイザ: Adam (β₁=0.9, β₂=0.98, ε=10⁻⁹)
- 学習率スケジュール: warmup_steps=4000での線形増加後、逆平方根減少
- 正則化: Dropout (Pdrop=0.1)、Label Smoothing (εls=0.1)
#### 実験結果
**翻訳性能(BLEU score):**
- English-German: Transformer (big) 28.4 vs 従来最高 26.36(2.0 BLEU改善)
- English-French: Transformer (big) 41.0 vs 従来最高 41.29(単一モデルとしては最高)
**訓練効率:**
- Transformer (base): 3.3×10¹⁸ FLOPs
- Transformer (big): 2.3×10¹⁹ FLOPs
- 従来最高のConvS2S: 7.7×10¹⁹ FLOPs (English-German)
訓練時間はbase modelで12時間、big modelで3.5日となり、従来モデルの数分の一の訓練コストで最高性能を達成した。
**アブレーション研究:** Table 3において、注意ヘッド数(1,4,8,16,32)、モデルサイズ、ドロップアウト率などの影響を詳細に分析し、各コンポーネントの重要性を実証している。特に、注意ヘッド数8が最適であり、モデルサイズの拡大とドロップアウトが性能向上に寄与することが示されている。
## Abstract
シーケンス変換モデルは、エンコーダとデコーダを含む複雑な[[RNN|リカレントニューラルネットワーク]]や[[畳み込みニューラルネットワーク]]をベースにしている。また、最も性能の良いモデルは、[[Attention機構|注意機構]]によってエンコーダとデコーダを接続する。我々は、注意メカニズムのみに基づく新しい単純なネットワークアーキテクチャである[[Transformer]]を提案し、再帰性と畳み込みを完全に排除する。2つの機械翻訳タスクの実験により、これらのモデルはより並列化可能であり、学習に要する時間が大幅に短縮されながら、品質が優れていることが示された。我々のモデルは、WMT 2014英語-ドイツ語翻訳タスクにおいて28.4BLEUを達成し、アンサンブルを含む既存の最良の結果 よりも2BLEU以上向上しています。WMT 2014英語-フランス語翻訳タスクにおいて、我々のモデルは、8つのGPUで3.5日間学習した後、新しい単一モデルの最新BLEUスコア4 1.8を確立し、これは文献からの最良のモデルの学習コストのごく一部である。我々は、Transformerが大規模かつ限られた学習データの両方で英語の構成要素解析にうまく適用することで、他のタスクにもうまく汎化できることを示す。