## Memo ## Memo with LLM ### 論文情報 - **タイトル**: Language Models are Few-Shot Learners - **著者**: Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D. Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei (OpenAI) - **カンファレンス**: NeurIPS 2020 (Neural Information Processing Systems) - **発表年**: 2020年 ### 論文概要 本論文は、1750億パラメータの自己回帰型言語モデルGPT-3を導入し、勾配更新やファインチューニングなしに、タスク非依存的なfew-shot学習性能を大幅に向上できることを実証した。GPT-3は、文脈内での少数の例示や自然言語による指示のみで、翻訳、質問応答、文章完成、算術計算など多様なNLPタスクにおいて、従来の最先端手法に匹敵する性能を達成した。 ### 詳細解説 #### 問題設定 **入力と出力**: 言語モデルに対して、(1) zero-shot(自然言語による指示のみ)、(2) one-shot(指示+1つの例示)、(3) few-shot(指示+数個から数十個の例示)の設定で様々なNLPタスクを与え、適切な応答を生成させる。 **必要なデータ**: 事前学習には約400Bトークンの大規模テキストコーパス(CommonCrawl、WebText2、Books1、Books2、Wikipedia)を使用。評価時は各タスクで少数の例示のみを使用。 #### 提案手法 **GPT-3アーキテクチャ**: GPT-2と同様のTransformerアーキテクチャを採用し、交互に密結合と局所的にバンド化したスパース注意パターンを使用。8つの異なるサイズのモデル(125M〜175Bパラメータ)を訓練。 **In-Context Learning**: タスク固有のファインチューニングではなく、推論時に文脈内で少数の例示を与えることで、モデルがタスクを理解し実行する能力を活用。数式的には、K個の例示 (x₁,y₁), ..., (xₖ,yₖ) と新しい入力 xₖ₊₁ に対して、P(yₖ₊₁|x₁,y₁,...,xₖ,yₖ,xₖ₊₁) を最大化する応答を生成。 #### 新規性 **スケーリング効果の実証**: 従来研究と比較して、モデルサイズを2桁拡大(GPT-2の1.5Bから175Bパラメータへ)することで、few-shot学習性能が劇的に向上することを実証。特に、モデルサイズが大きくなるほど文脈内学習の効果が顕著に現れる。 **タスク非依存的性能**: ファインチューニング不要でありながら、多くのタスクで従来のファインチューニング手法に匹敵または上回る性能を達成。これは従来のNLP研究パラダイムからの大きな転換を示している。 #### 実験設定 **使用データセット**: PTB(言語モデリング)、LAMBADA(文脈理解)、HellaSwag(常識推論)、TriviaQA(質問応答)、WebQuestions、Natural Questions、翻訳タスク(WMT'14 Fr↔En等)、SuperGLUEベンチマーク、Winograd Schema等の42のデータセット。 **評価指標**: タスクに応じてaccuracy、F1スコア、BLEU、perplexityを使用。多肢選択問題では対数尤度比較、自由形式生成ではbeam search(幅4、長さペナルティα=0.6)を使用。 #### 実験結果 **言語モデリング**: PTBで新しい最先端性能(perplexity 20.50)を達成。 **質問応答**: TriviaQAでfew-shot設定において71.2%の精度を達成し、従来のopen-domain手法と競合。 **翻訳**: 英語への翻訳では教師なし手法を上回る性能、英語からの翻訳では従来手法に劣る結果。 **SuperGLUE**: 8つのタスクのうち4つでfine-tunedなBERT-Largeを上回る性能。 **算術**: 2桁の加減算では100%と98.9%の精度、3桁では80.4%と94.2%の精度を達成。 **合成テキスト生成**: GPT-3が生成したニュース記事を人間が区別できる確率は約52%(ほぼランダム)。 論文では、一部のタスク(自然言語推論、文比較タスク)でGPT-3の限界も明示している。また、データ汚染の分析や、バイアス、エネルギー使用量、悪用可能性等の社会的影響についても詳細な議論を行っている。 ## Abstract 近年の研究では、大規模なテキストコーパスでの事前学習に続いて特定のタスクでのファインチューニングを行うことで、多くのNLPタスクやベンチマークで大幅な性能向上が実証されている。アーキテクチャは通常タスク非依存的であるが、この手法は依然として数千から数万の例を含むタスク固有のファインチューニングデータセットを必要とする。対照的に、人間は一般的に、わずか数例や簡単な指示から新しい言語タスクを実行できる—これは現在のNLPシステムがいまだに大きく苦戦していることである。本論文では、言語モデルのスケールアップがタスク非依存的なfew-shot性能を大幅に向上させ、時には従来の最先端のファインチューニングアプローチと競合するレベルに達することを示している。具体的には、1750億パラメータの自己回帰型言語モデルGPT-3を訓練し、これは以前の非スパース言語モデルの10倍の規模であり、few-shot設定でその性能をテストした。すべてのタスクにおいて、GPT-3は勾配更新やファインチューニングなしに適用され、タスクとfew-shot実演は純粋にモデルとのテキスト相互作用を通じて指定される。GPT-3は、翻訳、質問応答、穴埋めタスクを含む多くのNLPデータセットで優れた性能を達成するとともに、単語のアンスクランブル、文中での新しい単語の使用、3桁の算術計算など、その場での推論やドメイン適応を必要とするいくつかのタスクでも成功を収めている。同時に、GPT-3のfew-shot学習がいまだに苦戦するいくつかのデータセットと、GPT-3が大規模なWebコーパスでの訓練に関連する方法論的問題に直面するデータセットも特定している。最後に、人間の評価者が人間によって書かれた記事と区別することが困難なニュース記事のサンプルをGPT-3が生成できることを発見した。この発見とGPT-3全般の広範な社会的影響について議論している。