言語モデル事前学習 - yuuk1's Digital Garden

# 言語モデル事前学習 ## 定義言語モデル事前学習（language model pre-training）は、大規模なラベルなしテキストコーパスで言語モデリング目的関数により汎用的な表現を学習し、その後、個別のタスクに教師あり微調整する二段階の転移学習パラダイムである。GPT-1 では Transformer デコーダを用いた自己回帰型言語モデリングで事前学習し、線形出力レイヤーの追加とタスク固有の入力変換のみで多様な下流タスクに転移できることを実証した。(Source: [[@2018__OpenAI__Improving Language Understanding by Generative Pre-Training]]) ## 横断的知見 - GPT-1→GPT-2→GPT-3 の系譜は「事前学習＋微調整」（GPT-1）→「事前学習のみ、ゼロショット」（GPT-2）→「事前学習のみ、文脈内少数ショット」（GPT-3）というパラダイムシフトを示す。タスク固有の適応の必要性が段階的に低減し、事前学習そのものの規模が汎化能力を決定する構図が明確化した。(Source: [[@2018__OpenAI__Improving Language Understanding by Generative Pre-Training]], [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]], [[@2020__NeurIPS__Language Models are Few-Shot Learners]]) - デコーダのみの [[Transformer]] アーキテクチャの選択が、言語モデリング目的関数（自己回帰）と自然に整合し、生成的事前学習パラダイムを可能にした。BERT（エンコーダのみ、マスク言語モデリング）との分岐点であり、GPT 系列がスケーリングにおいて優位に立った一因である。(Source: [[@2018__OpenAI__Improving Language Understanding by Generative Pre-Training]], [[@2017__NeurIPS__Attention Is All You Need]]) ## 未解決の問い - 事前学習の目的関数として自己回帰（GPT）と双方向マスク（BERT）のどちらが最終的に優位か - 微調整なしでタスクを解く可能性（GPT-2・GPT-3 で後続研究が進んだ方向） - 事前学習コーパスの規模・多様性がモデルの転移能力に与える影響の定量化（GPT-1 は BooksCorpus のみを使用） - 補助的言語モデリング目的関数の効果がデータセット規模に依存する原因の解明 ## 関連 - [[@2018__OpenAI__Improving Language Understanding by Generative Pre-Training]] - [[Transformer]] - [[LLMスケーリング則]] ## 出典 - [[@2018__OpenAI__Improving Language Understanding by Generative Pre-Training]]