# GPT-3
## 概要
GPT-3 は [[OpenAI]] が開発した 1,750 億パラメータの自己回帰言語モデルであり、従来の非スパースモデルの 10 倍の規模を持つ。[[GPT-2]] と同一の [[Transformer]] デコーダ型アーキテクチャを基盤とし、Sparse Transformer に倣った密な注意層と局所帯状疎注意層の交互配置を採用している。パラメータ更新を伴わない[[文脈内学習]](少数ショット・ワンショット・ゼロショット)により、40 以上の NLP タスクにおいて強い性能を示し、一部では微調整された最先端モデルに匹敵する結果を達成した。(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]])
## アーキテクチャ
- **基盤**: [[GPT-2]] と同一のアーキテクチャ(修正初期化、事前正規化、可逆トークナイゼーション)
- **注意パターン**: Sparse Transformer に倣い、密な注意層と局所帯状(locally banded)疎注意層を交互に配置
- **パラメータ数**: 1,750 億(175B)
- **コンテキスト窓**: 2,048 トークン($n_{ctx} = 2048$)
- **トークナイザ**: GPT-2 のバイトレベル BPE を再利用
- **モデルサイズ系列**: 125M、350M、760M、1.3B、2.7B、6.7B、13B、175B の 8 段階
- **並列化**: 深さ方向と幅方向の両次元でモデル並列分散
(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]])
## 訓練
- **データ**: フィルタリング済み Common Crawl(高品質参照コーパスとの類似性でフィルタ)、拡張版 WebText、Books1、Books2、英語版 Wikipedia をデータセット混合。言語比率は英語 93%、非英語 7%(単語数ベース)。文書レベルのファジー重複排除を実施。
- **ハードウェア**: V100 GPU クラスタ(Microsoft 提供)
- **計算量**: 数千ペタフロップス/日
(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]])
## 主要な実験結果
| タスク | 設定 | GPT-3 | 従来 SOTA |
|---|---|---|---|
| LAMBADA(精度) | 少数ショット | 86.4% | 68.0% |
| LAMBADA(パープレキシティ) | 少数ショット | 1.92 | 8.63 |
| TriviaQA(精度) | 少数ショット | 71.2% | 68.0%(RAG) |
| CoQA(F1) | 少数ショット | 85.0 | 90.7(微調整) |
| SuperGLUE(平均) | 少数ショット K=32 | 71.8 | 89.0(微調整) |
| COPA(精度) | 少数ショット | 92.0% | 94.8% |
| ニュース記事人間判別 | 175B 生成 | 52%(偶然水準) | — |
(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]])
## 関連
- エンティティ: [[OpenAI]] / [[Tom Brown]] / [[Jared Kaplan]] / [[Alec Radford]] / [[Ilya Sutskever]] / [[Dario Amodei]] / [[GPT-2]]
- 概念: [[文脈内学習]] / [[LLMスケーリング則]] / [[Transformer]] / [[言語モデル事前学習]]
- ソース: [[@2020__NeurIPS__Language Models are Few-Shot Learners]]
## 出典
- [[@2020__NeurIPS__Language Models are Few-Shot Learners]]