# GPT-2
## 概要
GPT-2 は [[OpenAI]] が 2019 年に発表した 1.5B パラメータの Transformer ベース言語モデルである。[[WebText]](約 40GB のウェブテキスト)で訓練され、ゼロショット(明示的な教師信号なし)で多様な NLP タスクを解けることを実証した。テストした 8 つの言語モデリングデータセットのうち 7 つでゼロショット SOTA を達成し、教師なしマルチタスク学習の可能性を示した。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]])
## アーキテクチャ
GPT-1 の Transformer アーキテクチャを基盤とし、以下の変更を加えている。
- **レイヤー正規化の位置**: 各サブブロックの入力側に移動(Pre-LN 構成)。最終セルフアテンションブロックの後に追加のレイヤー正規化を配置。
- **残差接続のスケーリング**: 残差層の重みを初期化時に $1/\sqrt{N}$($N$ は残差層数)でスケール。
- **語彙**: 50,257 トークン(バイトレベル BPE)。
- **コンテキスト長**: 1,024 トークン(GPT-1 の 512 から拡大)。
- **モデル規模**: 48 層、$d_{\text{model}}=1600$、1,542M パラメータ。
4 つのサイズ(117M / 345M / 762M / 1542M)が訓練され、最大モデルが GPT-2 と呼ばれる。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]])
## 主要な実験結果
- 8 つの言語モデリングデータセットのうち 7 つでゼロショット SOTA を達成。
- LAMBADA: パープレキシティ 8.63、精度 63.24%。
- CoQA(読解): 教師なしで 55 F1。
- Winograd Schema Challenge: 70.70%(7 ポイント改善)。
- ゼロショット性能はモデル規模に対して対数線形に改善。
- 訓練・検証の双方で WebText をアンダーフィットしており、さらなるスケールアップの余地を示唆。
(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]])
## 位置付け
GPT-2 は GPT-1(2018, 117M パラメータ)を 10 倍以上にスケールアップしたモデルであり、「教師なしマルチタスク学習」という概念を実証的に確立した。ゼロショット性能とモデル規模の対数線形関係の発見は、後続の GPT-3 やスケーリング則研究の基盤となった。
## 関連
- ソース: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]]
- 組織: [[OpenAI]]
- データセット: [[WebText]]
- 概念: [[LLMスケーリング則]]
- 人物: [[Alec Radford]] / [[Jeffrey Wu]] / [[Rewon Child]] / [[Dario Amodei]] / [[Ilya Sutskever]]