[GitHub - openai/gpt-3: GPT-3: Language Models are Few-Shot Learners](https://github.com/openai/gpt-3)
> 最近の研究では、大規模なテキストコーパスで事前学習を行った後、特定のタスクで微調整を行うことで、多くの[[NLP]]タスクやベンチマークで大幅な改善が見られることが示されています。この方法では、タスクに依存しないアーキテクチャが一般的ですが、それでも数千から数万例のタスク固有のファインチューニングデータセットが必要です。一方、人間は、わずかな例文や簡単な指示から新しい言語タスクを実行することができますが、現在のNLPシステムでは、このようなことはほとんどできません。本発表では、言語モデルをスケールアップすることで、タスクに依存しない少数精鋭の性能が大幅に向上し、時には最先端の微調整アプローチに匹敵する性能にまで到達することを示します。具体的には、従来のノンスパース言語モデルの10倍にあたる1750億個のパラメータを持つ自己回帰型言語モデルGPT-3を学習させ、その性能を数発処理で検証する。すべてのタスクにおいて、GPT-3は勾配更新や微調整なしで適用され、タスクと数ショットのデモはモデルとのテキスト対話によって純粋に指定されます。GPT-3は、翻訳、質問応答、クロースタスク、および、単語のスクランブル解除、文中の新規単語の使用、3桁の算術など、その場での推論や領域適応を必要とするタスクなど、多くのNLPデータセットで高い性能を達成する。同時に、GPT-3の数発学習が苦手とするデータセットや、GPT-3が大規模ウェブコーパスの学習に関する方法論的問題に直面しているデータセットも確認した。最後に、GPT-3は、人間が書いた記事と区別することが困難なニュース記事のサンプルを生成できることを発見した。この発見とGPT-3が一般的に与える社会的な影響について議論する。