GPT-2 - yuuk1's Digital Garden

# GPT-2 ## 概要 GPT-2 は [[OpenAI]] が 2019 年に発表した 1.5B パラメータの Transformer ベース言語モデルである。[[WebText]]（約 40GB のウェブテキスト）で訓練され、ゼロショット（明示的な教師信号なし）で多様な NLP タスクを解けることを実証した。テストした 8 つの言語モデリングデータセットのうち 7 つでゼロショット SOTA を達成し、教師なしマルチタスク学習の可能性を示した。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]]) ## アーキテクチャ GPT-1 の Transformer アーキテクチャを基盤とし、以下の変更を加えている。 - **レイヤー正規化の位置**: 各サブブロックの入力側に移動（Pre-LN 構成）。最終セルフアテンションブロックの後に追加のレイヤー正規化を配置。 - **残差接続のスケーリング**: 残差層の重みを初期化時に $1/\sqrt{N}$（$N$ は残差層数）でスケール。 - **語彙**: 50,257 トークン（バイトレベル BPE）。 - **コンテキスト長**: 1,024 トークン（GPT-1 の 512 から拡大）。 - **モデル規模**: 48 層、$d_{\text{model}}=1600$、1,542M パラメータ。 4 つのサイズ（117M / 345M / 762M / 1542M）が訓練され、最大モデルが GPT-2 と呼ばれる。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]]) ## 主要な実験結果 - 8 つの言語モデリングデータセットのうち 7 つでゼロショット SOTA を達成。 - LAMBADA: パープレキシティ 8.63、精度 63.24%。 - CoQA（読解）: 教師なしで 55 F1。 - Winograd Schema Challenge: 70.70%（7 ポイント改善）。 - ゼロショット性能はモデル規模に対して対数線形に改善。 - 訓練・検証の双方で WebText をアンダーフィットしており、さらなるスケールアップの余地を示唆。 (Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]]) ## 位置付け GPT-2 は GPT-1（2018, 117M パラメータ）を 10 倍以上にスケールアップしたモデルであり、「教師なしマルチタスク学習」という概念を実証的に確立した。ゼロショット性能とモデル規模の対数線形関係の発見は、後続の GPT-3 やスケーリング則研究の基盤となった。 ## 関連 - ソース: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]] - 組織: [[OpenAI]] - データセット: [[WebText]] - 概念: [[LLMスケーリング則]] - 人物: [[Alec Radford]] / [[Jeffrey Wu]] / [[Rewon Child]] / [[Dario Amodei]] / [[Ilya Sutskever]]