# Language Models are Unsupervised Multitask Learners
> [!abstract] 概要
> 質問応答、機械翻訳、読解、要約といった自然言語処理タスクは、通常タスク固有のデータセットを用いた教師あり学習で取り組まれる。本研究では、数百万のウェブページからなる新しいデータセット [[WebText]] で訓練した言語モデルが、明示的な教師信号を一切与えずにこれらのタスクを学習し始めることを示す。文書と質問を条件付けとして与えたとき、言語モデルが生成する回答は CoQA データセットで 55 F1 に達し、127,000 件以上の訓練例を使った 4 つのベースラインのうち 3 つの性能に匹敵または上回る。ゼロショットタスク転移の成功には言語モデルの容量が不可欠であり、容量を増やすと性能はタスク全般にわたって対数線形に改善する。最大モデル [[GPT-2]] は 1.5B パラメータの Transformer であり、テストした 8 つの言語モデリングデータセットのうち 7 つでゼロショット SOTA を達成したが、依然として [[WebText]] をアンダーフィットしている。モデルの生成サンプルはこれらの改善を反映し、一貫したパラグラフを含む。これらの知見は、自然発生するデモンストレーションからタスクを学習する言語処理システム構築への有望な道筋を示唆する。
## 論文情報
| 項目 | 内容 |
|---|---|
| タイトル | Language Models are Unsupervised Multitask Learners |
| 著者 | [[Alec Radford]]\*, [[Jeffrey Wu]]\*, [[Rewon Child]], David Luan, [[Dario Amodei]]\*\*, [[Ilya Sutskever]]\*\* |
| 所属 | [[OpenAI]](全員) |
| 媒体 | OpenAI Technical Report(未査読) |
| 発表日 | 2019-02-14 |
| コード | https://github.com/openai/gpt-2 |
## 概要
本論文は、十分大きな言語モデルを十分多様なウェブテキストで訓練すれば、明示的な教師信号やタスク固有のアーキテクチャ変更なしに、多様な NLP タスクをゼロショットで解けるようになることを実証した。1.5B パラメータの Transformer 言語モデル [[GPT-2]] を [[WebText]](約 40GB のウェブテキスト)で訓練し、8 つの言語モデリングベンチマークのうち 7 つでゼロショット SOTA を達成した。ゼロショット性能はモデル規模に対して対数線形に改善し、教師なしマルチタスク学習の可能性を示した。
## 問題設定
当時の NLP システムはタスク固有のデータセットで教師あり学習する「狭い専門家」であり、データ分布やタスク仕様のわずかな変化に脆弱であった。マルチタスク学習は汎化の有望な枠組みだが、十分な数の(データセット、目的関数)ペアを手作業で設計・収集することは現実的に困難であった。
著者らは、言語モデルが十分な容量を持てば、自然言語テキスト中に暗黙的に含まれるタスクのデモンストレーションから $p(\text{output}|\text{input}, \text{task})$ を学習できると仮説を立てた。すなわち、教師なし言語モデリングの大域的最小値は教師あり目的関数の大域的最小値でもあるという理論的観察に基づき、明示的な教師信号なしにゼロショットでタスクを転移できるかを検証した。
## 提案手法
### WebText データセット
既存のウェブスクレイプ(Common Crawl 等)はデータ品質に深刻な問題があった。著者らは品質を重視し、ソーシャルメディアプラットフォーム Reddit で 3 カルマ以上を獲得した全外部リンクをスクレイプすることで、人間がキュレーションしたウェブページのみを収集した。3 カルマ以上というフィルタは、他のユーザーがそのリンクを有益・教育的・面白いと判断したことのヒューリスティックな指標として機能する。
結果として得られた [[WebText]] は 4,500 万リンクのテキスト部分集合であり、重複除去とヒューリスティックなクリーニングの後、800 万件超の文書・合計約 40GB のテキストを含む。分析の複雑化を避けるため、他のデータセットとの訓練データ重複が生じやすい Wikipedia 文書はすべて除外した。テキスト抽出には Dragnet と Newspaper ライブラリを併用した。
### モデルアーキテクチャ
Transformer ベースの言語モデルを採用し、GPT-1(Radford et al., 2018)のアーキテクチャを基盤として以下の変更を加えた。
- **レイヤー正規化の位置移動**: 各サブブロックの入力側に移動(事前活性化残差ネットワークに類似)。最終セルフアテンションブロックの後に追加のレイヤー正規化を配置。
- **残差接続のスケーリング**: 残差層の重みを初期化時に $1/\sqrt{N}$($N$ は残差層数)でスケールし、モデル深度に伴う残差パスへの蓄積を制御する修正初期化を採用。
- **語彙とコンテキスト**: 語彙サイズを 50,257 に拡張。コンテキストサイズを 512 から 1,024 トークンに拡大。バッチサイズ 512 を使用。
4 つのモデルサイズを対数等間隔で訓練した。
| モデル | パラメータ数 | 層数 | $d_{\text{model}}$ |
|---|---|---|---|
| 最小(GPT-1 相当) | 117M | 12 | 768 |
| 中(BERT 最大相当) | 345M | 24 | 1024 |
| 大 | 762M | 36 | 1280 |
| GPT-2 | 1542M | 48 | 1600 |
### 入力表現(バイトレベル BPE)
一般的な言語モデルの前処理(小文字化、トークン化、語彙外トークン)はモデル化可能な文字列空間を制約する。著者らはバイトレベル BPE(Byte Pair Encoding)を採用し、任意の Unicode 文字列に確率を割り当てられるようにした。
標準的な BPE をバイト列に直接適用すると、文字カテゴリを跨いだ貪欲なマージにより語彙スロットの非効率な割り当てが生じる(例: `dog.` `dog!` `dog?` が別トークンになる)。これを回避するため、バイト列の文字カテゴリ間でのマージを禁止し、空白のみ例外として許可することで、圧縮効率を大幅に改善しつつ単語の断片化を最小限に抑えた。この表現により、前処理・トークン化・語彙サイズに依存せず任意のデータセットで評価が可能になった。
### タスクの条件付け
従来のマルチタスク学習ではタスク条件付けをアーキテクチャレベル(タスク固有エンコーダ・デコーダ)やアルゴリズムレベル(MAML の内側・外側ループ)で実装していた。本研究では McCann et al. (2018) に倣い、タスク・入力・出力をすべて記号列として表現する。翻訳は `(translate to french, english text, french text)`、読解は `(answer the question, document, question, answer)` のように自然言語で条件付けする。
## 新規性
1. **ゼロショットでのタスク解決**: パラメータやアーキテクチャの変更なしに、言語モデルが下流タスクをゼロショットで解けることを体系的に実証した初めての研究。
2. **スケーリングとゼロショット性能の対数線形関係**: モデル容量を増やすとゼロショット性能がタスク全般にわたって対数線形に改善することを示し、十分大きなモデルが明示的教師なしにタスクを解くという仮説を支持した。
3. **品質フィルタリングされたウェブコーパス**: Reddit カルマを品質ヒューリスティックとして用いた [[WebText]] の構築手法は、後続のウェブコーパス設計に影響を与えた。
## 実験設定
### 言語モデリング(8 データセット)
Penn Treebank、WikiText-2、enwik8、text8、WikiText-103、1 Billion Word Benchmark、LAMBADA、Children's Book Test (CBT) の 8 つのデータセットでゼロショット評価。可逆的なデトークナイザを適用し、前処理のアーティファクトを可能な限り除去した。
### 下流タスク
- **読解**: CoQA(会話型質問応答、7 ドメインの文書)
- **要約**: CNN and Daily Mail(`TL;DR:` プロンプトによる要約生成)
- **翻訳**: WMT-14 英仏・仏英
- **質問応答**: Natural Questions(事実型質問応答)
- **常識推論**: Winograd Schema Challenge
## 実験結果
### 言語モデリング
GPT-2 はテストした 8 データセットのうち 7 つでゼロショット SOTA を達成した。
- **LAMBADA**: パープレキシティ 99.8 → 8.63、精度 59.23% → 63.24%(ストップワードフィルタ適用時)
- **CBT 普通名詞**: 85.7% → 93.30%
- **CBT 固有名詞**: 82.3% → 89.05%
- **Penn Treebank**: パープレキシティ 46.54 → 35.76
- **WikiText-2**: パープレキシティ 39.14 → 18.34
- **WikiText-103**: パープレキシティ 18.3 → 17.48
- **enwik8**: 0.99 BPB → 0.93 BPB
- **text8**: 1.08 BPC → 0.98 BPC
- **1 Billion Word**: パープレキシティ 21.8 → 42.16(唯一 SOTA 未達。文単位シャッフルにより長距離構造が破壊されていることが要因)
### 下流タスク
- **CoQA(読解)**: 教師なしで 55 F1。4 つのベースラインのうち 3 つに匹敵または上回る。教師あり SOTA(BERT ベース)は 89 F1。
- **要約**: `TL;DR:` ヒント付きで ROUGE-AVG 21.40。ヒント除去で 15.03 に低下(タスクヒントの有効性を実証)。古典的ニューラルベースラインには及ばない。
- **翻訳**: 英→仏 5 BLEU、仏→英 11.5 BLEU。仏→英は複数の教師なし機械翻訳ベースラインを上回った。WebText 中のフランス語データはわずか約 10MB。
- **質問応答(Natural Questions)**: 正答率 4.1%(最小モデルの 1.0% から改善)。最も確信度の高い上位 1% では 63.1% の正答率を示し、モデルの確信度が良く較正されていた。
- **Winograd Schema Challenge**: 精度を 7 ポイント改善し 70.70% を達成。
## 考察
### モデル規模と性能の関係
全タスクにおいてモデルサイズの増加に伴いゼロショット性能が対数線形に改善する傾向が確認された(図1)。この結果は Hestness et al. (2017) が示した深層学習モデルのスケーリング傾向と整合し、1B パラメータ以上の領域でも同様の傾向が継続することを示唆する。
### WebText のアンダーフィット
GPT-2 は最大モデルであるにもかかわらず [[WebText]] の訓練セットと検証セットの双方で性能が改善を続けており、依然としてアンダーフィットの状態にあった。これはさらに大きなモデルが性能を向上させる余地があることを示唆する。
### 汎化と記憶
8-gram 重複分析により、WebText 訓練セットと各評価データセットの重複率を調査した。平均重複率は 3.2% であり、多くのデータセットが自身の訓練分割とより大きな重複(平均 5.9%)を持っていた。重複によるバイアスは小さいが一貫しており、適切な重複除去が推奨される。
## 強み
- 明示的な教師信号なしにゼロショットで多様なタスクを解けることを体系的に実証し、教師なしマルチタスク学習の概念を確立した。
- モデル規模と性能の対数線形関係を複数タスクにわたって示し、後続のスケーリング研究の基盤を築いた。
- バイトレベル BPE による入力表現は任意の Unicode 文字列を処理可能にし、前処理への依存を排除した。
- 品質フィルタリングされた [[WebText]] の構築手法は、後続の大規模コーパス設計に影響を与えた。
## 弱点・課題
- 要約や翻訳ではゼロショット性能が教師あり手法に大きく劣り、実用的な水準には達していない。
- GPT-2 の読解における回答は単純な検索ヒューリスティック(例: who 質問に対して文書中の人名で回答)に依存する傾向がある。
- 1 Billion Word Benchmark のような文単位にシャッフルされたデータでは長距離依存を活かせず SOTA 未達。
- 単方向表現の限界について著者ら自身が言及しており、BERT のような双方向モデルとの比較は未検証。
- WebText のデータ構成(ドメイン分布、言語比率)の詳細な分析が限定的である。
## 出典
- [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]](本ページ自身; 原本: [[.raw/papers/language_models_are_unsupervised_multitask_learners.pdf]])