@2020__NeurIPS__Language Models are Few-Shot Learners

# Language Models are Few-Shot Learners > [!abstract] 概要 > 言語モデルのスケールアップがタスク非依存の少数ショット性能を大幅に改善し、場合によっては従来の最先端微調整手法と競争力を持つことを実証する。具体的には、1,750 億パラメータの自己回帰言語モデル GPT-3 を訓練し、少数ショット設定でその性能を検証する。すべてのタスクにおいて GPT-3 は勾配更新や微調整を一切行わず、タスクと少数ショットの例示はモデルとのテキストインタラクションのみで指定される。GPT-3 は翻訳、質問応答、クローズタスクを含む多くの NLP データセットで強い性能を達成する。また、GPT-3 の少数ショット学習が依然として苦戦するデータセットや、大規模ウェブコーパスでの訓練に関連する方法論的問題に直面するデータセットも特定する。 ## 論文情報 - **著者**: Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei - **所属**: [[OpenAI]]（Jared Kaplan は Johns Hopkins University 兼任） - **会議**: 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada - **公開日**: 2020-05-28（arXiv 初版） - **URL**: https://arxiv.org/abs/2005.14165 ## 概要本論文は 1,750 億パラメータの自己回帰言語モデル GPT-3 を訓練し、微調整なしの少数ショット設定で 40 以上の NLP タスクにおける性能を体系的に評価した。モデル規模の拡大に伴い文脈内学習（in-context learning）の性能が滑らかに改善することを示し、一部のタスクでは微調整された最先端モデルに匹敵する結果を達成した。 ## 問題設定 NLP では事前学習済みモデルをタスク固有のラベル付きデータで微調整する手法が主流であるが、この手法にはタスクごとに大量のラベル付きデータが必要であること、分布外への汎化が乏しいこと、訓練データの偽の特徴を利用するリスクがあることなどの欠点がある。先行研究 GPT-2 はゼロショット転移の可能性を示したが、性能は教師あり手法に大きく劣っていた。本論文は、モデル規模をさらに 2 桁拡大することで、勾配更新を一切行わない少数ショット学習で実用的な性能が達成できるかを検証する。 ## 提案手法 ### モデルアーキテクチャ GPT-2 と同一の Transformer デコーダ型アーキテクチャ（修正初期化、事前正規化、可逆トークナイゼーション）を基盤とし、Sparse Transformer に倣い密な注意層と局所帯状（locally banded）疎注意層を交互に配置する。モデル規模の依存性を調べるため、125M から 175B まで 8 段階のモデルサイズ系列を訓練した。最大の 175B パラメータモデルが GPT-3 と呼ばれる。各モデルは深さ方向と幅方向の両次元で GPU 間にモデル並列分散される。 ### 学習設定の 3 分類本論文は文脈内学習を以下の 3 条件に体系化した（いずれもパラメータ更新なし）。 - **少数ショット（Few-Shot）**: 推論時に K 個（通常 10〜100）の入出力例示をコンテキストとして与え、最後の入力に対する出力をモデルが生成する。コンテキスト窓（$n_{ctx} = 2048$）に収まる範囲で例示数を設定する。 - **ワンショット（One-Shot）**: K = 1 の設定。 - **ゼロショット（Zero-Shot）**: 例示なしで、自然言語によるタスク記述のみを与える。微調整（Fine-Tuning）はパラメータ更新を伴うため本研究のスコープ外とし、将来の課題として残している。 ### 訓練データ訓練データは以下の手順で構築された。(1) Common Crawl を高品質参照コーパスとの類似性でフィルタリング、(2) 文書レベルのファジー重複排除を実施して冗長性を除去し検証セットの健全性を確保、(3) 既知の高品質参照コーパス（拡張版 WebText、Books1、Books2、英語版 Wikipedia）を混合して多様性を確保。訓練データの言語比率は英語 93%、非英語 7%（単語数ベース）。トークナイザは GPT-2 のバイトレベル BPE を再利用している。 **Figure 1.1: モデル構成** ![[_attachments/1457c0d6bfcb4967418bfb8ac142f64a-Paper/fig1-1-model.png]] (Figure 1.1. We observe that one- and few-shot performance is often much higher than true zero-shot performance leading us to suggest に関するモデル構成を示す。) **Figure 7.1: モデル構成** ![[_attachments/1457c0d6bfcb4967418bfb8ac142f64a-Paper/fig7-1-model.png]] (Figure 7.1. Racial Sentiment に関するモデル構成を示す。) **Figure 7.2: モデル構成** ![[_attachments/1457c0d6bfcb4967418bfb8ac142f64a-Paper/fig7-2-model.png]] (Figure 7.2. Total compute used during training. Based on the analysis in Scaling Laws For Neural Language Models [KMH+20] we train m に関するモデル構成を示す。) ## 新規性 - 1,750 億パラメータという従来の非スパースモデル比 10 倍の規模で、文脈内学習の有効性を大規模に実証した最初の研究である。 - 少数ショット・ワンショット・ゼロショットの 3 条件を体系的に定義・比較し、モデル規模の拡大に伴い少数ショットとゼロショットの性能差が拡大することを発見した。これはより大きなモデルがより優れたメタ学習器であることを示唆する。 - パラメータ更新なしの単一モデルが 40 以上の NLP タスクに適用可能であることを示し、タスク固有の微調整からの脱却の方向性を提示した。 ## 実験設定 42 以上の精度ベースベンチマークを含む広範な NLP タスクで評価を実施した。 - **言語モデリング・クローズ・補完**: Penn Tree Bank（ゼロショットパープレキシティ）、LAMBADA（最終単語予測）、HellaSwag（結末選択）、StoryCloze 2016 - **質問応答**: TriviaQA、Natural Questions、WebQuestions、ARC（Easy/Challenge）、CoQA、DROP - **翻訳**: WMT'14 Fr↔En、WMT'16 De↔En、WMT'16 Ro↔En - **SuperGLUE**: BoolQ、CB、COPA、RTE、WiC、WSC、MultiRC、ReCoRD の 8 タスク（少数ショットは K=32） - **その他**: Winograd スタイルタスク、常識推論、読解、算術（2〜5 桁の加減算）、ニュース記事生成の人間判別実験訓練インフラは V100 GPU のクラスタで、資金は OpenAI が提供し、クラスタは Microsoft が供給した。 **Table 3.1: データセット** ![[_attachments/1457c0d6bfcb4967418bfb8ac142f64a-Paper/table3-1-dataset.png]] (Table 3.1. Performance on cloze and completion tasks. GPT-3 signiﬁcantly improves SOTA on LAMBADA while achieving respectable perfo に関する評価データセットを示す。) **Table 3.2: 比較** ![[_attachments/1457c0d6bfcb4967418bfb8ac142f64a-Paper/table3-2-comparison.png]] (Table 3.2. Results on three Open-Domain QA tasks. GPT-3 is shown in the few-, one-, and zero-shot settings, as compared to prior SO に関する比較関係を示す。) ## 実験結果 ### 言語モデリング・クローズ・補完 - **LAMBADA**: 少数ショット GPT-3 は精度 86.4%、パープレキシティ 1.92 を達成し、従来 SOTA（精度 68.0%、パープレキシティ 8.63）を大幅に上回った。性能はモデルサイズに対し滑らかに改善する。 - **HellaSwag**: GPT-3 は微調整済み 1.5B モデルを上回るが（少数ショット 79.3%）、微調整マルチタスクモデル ALUM の全体 SOTA（85.6%）には及ばない。 - **StoryCloze**: ゼロショットで従来比約 10% 改善するが、微調整 SOTA（91.8%）には 4.1% 届かない。 ### 質問応答 - **TriviaQA**: ゼロショット 64.3%、ワンショット 68.0%、少数ショット 71.2%。少数ショットはクローズドブック設定の SOTA であり、15.3B パラメータの密ベクトル検索を用いた RAG モデルに匹敵する。 - **CoQA**: 少数ショット F1 85.0 で人間ベースライン（F1 90.7）の 3 ポイント以内。 - **Natural Questions**: 微調整 T5-11B+SSM には及ばず。細粒度の Wikipedia 知識が GPT-3 の広範な事前学習分布の限界を試していると考えられる。 ### 翻訳 - 英語への翻訳で従来の教師なし NMT を 5 BLEU 以上上回る（Fr→En 少数ショット 39.2、De→En 40.6）。一方、英語からの翻訳では教師なし NMT を下回る。 - En→Ro は 10 BLEU 以上低い顕著な外れ値であり、英語中心の BPE トークナイザの弱点が原因と推測される。 ### SuperGLUE - 少数ショット GPT-3 の平均スコアは 71.8 で、微調整 BERT-Large（69.0）を上回り、微調整 SOTA（89.0）には及ばない。 - COPA はほぼ SOTA（92.0%、SOTA 94.8%）。ReCoRD は F1 91.1 で SOTA 93.3 に迫る。 - WiC はランダム水準（49.4%）にとどまり、2 つの文の比較を伴うタスクが弱点であることが判明した。 ### ニュース記事生成の人間判別 - GPT-3 175B が生成した約 200 語のニュース記事を人間が判別する平均精度は約 52% であり、偶然水準とほぼ同等。モデルサイズの増大に伴い人間の判別能力が低下する傾向が確認された。 ## 考察 ### スケーリングの効果モデルパラメータ数の増大に伴い、ほぼすべてのタスクで 3 つの学習設定（ゼロショット・ワンショット・少数ショット）の性能が滑らかに向上する。特に少数ショットの性能改善はゼロショットより急峻であり、大きなモデルほど文脈内学習の恩恵が大きいことを示す。言語モデルは、外側ループの勾配降下による遅い学習と、コンテキスト活性化内の速い「文脈内」学習を組み合わせたメタ学習器として理解できると著者らは提案している。 ### 限界 - テキスト合成では文書レベルでの意味的反復、長い文章での一貫性の喪失、自己矛盾、非連続的な文が依然として生じる。 - 双方向アーキテクチャやデノイジング目的関数を使用しないため、穴埋めタスクや 2 つのテキスト断片の比較タスク（WiC、RTE 等）が弱い。 - 目的関数はすべてのトークンを等しく重み付けしており、予測の重要度の区別がない。 - 物理的相互作用などの基盤付け（グラウンディング）が欠如しており、世界に関する文脈理解に限界がある。 - 175B パラメータという規模はデプロイが困難であり、タスク固有の蒸留の探索が必要である。 ### 社会的影響 - **悪用リスク**: 高品質テキスト生成により、偽情報、スパム、フィッシング、詐欺的論文執筆等の既存の有害活動が強化される可能性がある。GPT-3 175B の生成テキストに対する人間の判別精度は偶然水準であり、合成テキストと人間執筆テキストの区別困難性は懸念すべきマイルストーンである。 - **バイアス**: 訓練データに存在するバイアスをモデルが反映する。性別では職業の 83% が男性指標語に偏り、人種では「Black」が 7 モデル中 5 モデルで最低感情値、「Asian」が最高感情値を示した。宗教ではイスラムに「テロリズム」「暴力」が高い共起率で出現した。モデルサイズの拡大により一部のバイアス指標は改善する兆候が見られた。 - **エネルギーコスト**: GPT-3 175B の訓練には数千ペタフロップス/日の計算が必要であり、GPT-2（1.5B）の数十ペタフロップス/日と比較して桁違いに大きい。ただし訓練後の推論は効率的であり、100 ページの生成に約 0.4 kWh を要するのみである。 ## 強み - パラメータ更新なしの単一モデルが極めて広範なタスクに適用可能であることを大規模に実証した点。 - 8 段階のモデルサイズ系列による体系的なスケーリング分析が、文脈内学習のスケーリング特性を明確に示した点。 - バイアス、悪用リスク、エネルギーコストの分析を含む包括的な社会的影響の議論を行った点。 ## 弱点・課題 - 双方向モデルとの比較実験がなく、アーキテクチャ選択の最適性は未検証。 - バイトレベル BPE トークナイザが英語中心であり、非英語言語（特にルーマニア語）で性能が大幅に低下する。 - 2 つのテキスト断片の比較を伴うタスク（WiC、RTE、CB 等）が体系的に弱い。 - 文脈内学習の内部メカニズム（勾配降下の暗黙的な近似なのか、パターンマッチングなのか）は解明されていない。 - 175B パラメータのデプロイコストとエネルギー消費は実用上の大きな障壁である。 - 訓練データとの重複（コンタミネーション）の影響は軽微と結論されたが、保守的な判定手法に基づいており過小評価の可能性がある。 ## 関連 - [[GPT-3]] - [[Tom Brown]] - [[Jared Kaplan]] - [[OpenAI]] - [[Alec Radford]] - [[Ilya Sutskever]] - [[Dario Amodei]] - [[文脈内学習]] - [[LLMスケーリング則]] - [[Transformer]] - [[言語モデル事前学習]] ## 出典 - [[.raw/papers/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf]]