# 文脈内学習
## 定義
文脈内学習(in-context learning)は、言語モデルが推論時にプロンプト中に提示された少数の入出力例示からタスクのパターンを読み取り、パラメータ更新なしにそのタスクを遂行する能力である。GPT-3 論文では、少数ショット(K 個の例示)、ワンショット(K=1)、ゼロショット(タスク記述のみ)の 3 条件に体系化された。著者らは、言語モデルを外側ループの勾配降下による遅い学習と、コンテキスト活性化内の速い「文脈内」学習を組み合わせたメタ学習器として理解できると提案している。(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]])
## 横断的知見
- GPT-2 がゼロショット転移を実証し([[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]])、GPT-3 が少数ショットの文脈内学習に拡張した([[@2020__NeurIPS__Language Models are Few-Shot Learners]])。文脈内学習の能力はモデル規模とともに滑らかに改善し、十分な規模(175B)で初めて微調整 SOTA に匹敵する性能に到達する。この進展は「事前学習+微調整」パラダイム([[言語モデル事前学習]])から「事前学習のみ」パラダイムへの移行を裏付ける。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]], [[@2020__NeurIPS__Language Models are Few-Shot Learners]])
## 未解決の問い
- 文脈内学習はベイズ推論の近似か、単なるパターンマッチングか。モデルのコンテキスト活性化内で暗黙的な勾配降下が行われているのか。(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]])
- 例示の順序・選択が性能に与える影響の体系的理解。GPT-3 ではランダムサンプリングされた例示を使用しているが、最適な例示選択戦略は未探索である。(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]])
- 2 つのテキスト断片の比較を伴うタスク(WiC、RTE 等)で文脈内学習が体系的に弱い原因の解明。(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]])
- コンテキスト窓サイズ(GPT-3 では 2,048 トークン)の制約が例示数と性能の関係に与える影響。(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]])
## 関連
- ソース: [[@2020__NeurIPS__Language Models are Few-Shot Learners]]
- エンティティ: [[GPT-3]] / [[OpenAI]]
- 概念: [[Transformer]] / [[言語モデル事前学習]] / [[LLMスケーリング則]]
## 出典
- [[@2020__NeurIPS__Language Models are Few-Shot Learners]](§2 Approach: 少数ショット・ワンショット・ゼロショットの定義、§1 Introduction: メタ学習器としての解釈、§3 Results: タスク別性能、§5 Limitations: 比較タスクの弱点)