文脈内学習 - yuuk1's Digital Garden

# 文脈内学習 ## 定義文脈内学習（in-context learning）は、言語モデルが推論時にプロンプト中に提示された少数の入出力例示からタスクのパターンを読み取り、パラメータ更新なしにそのタスクを遂行する能力である。GPT-3 論文では、少数ショット（K 個の例示）、ワンショット（K=1）、ゼロショット（タスク記述のみ）の 3 条件に体系化された。著者らは、言語モデルを外側ループの勾配降下による遅い学習と、コンテキスト活性化内の速い「文脈内」学習を組み合わせたメタ学習器として理解できると提案している。(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]]) ## 横断的知見 - GPT-2 がゼロショット転移を実証し（[[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]]）、GPT-3 が少数ショットの文脈内学習に拡張した（[[@2020__NeurIPS__Language Models are Few-Shot Learners]]）。文脈内学習の能力はモデル規模とともに滑らかに改善し、十分な規模（175B）で初めて微調整 SOTA に匹敵する性能に到達する。この進展は「事前学習＋微調整」パラダイム（[[言語モデル事前学習]]）から「事前学習のみ」パラダイムへの移行を裏付ける。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]], [[@2020__NeurIPS__Language Models are Few-Shot Learners]]) - 文脈内学習を例示の「出力」へ拡張すると「推論」が引き出せる: [[Chain-of-Thought Prompting]] は、プロンプト例示に中間推論ステップを追加する([[文脈内学習]]の出力拡張)だけで、標準プロンプティングでは改善しない算術・常識・記号推論タスクに新たなスケーリング曲線を出現させた。ただし ~100B パラメータ以上の大規模モデルでのみ有効であり、「文脈内学習の能力はモデルスケールとともに改善する」という既知の知見と一致しつつ、創発の閾値が推論タスクで特に高いことを示す。(Source: [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]], [[@2020__NeurIPS__Language Models are Few-Shot Learners]]) - **推論スタイル(帰納 vs 外挿ショートカット)はモデル規模に勝る**。TimeReasoner の TSF 実験から、観察重視の帰納的推論を行う LLM が線形外挿ショートカットに頼る LLM を上回ることが示された。GPT-5-Thinking は他のスロー思考モデルより大きいが、ヒューリスティック外挿への依存で期待を下回る。文脈内学習における「どう推論するか」がモデル規模の「どれだけ推論できるか」を凌駕する例で、ICL の有効性がプロンプトでの推論型誘導に強く依存することを示す (Source: [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]])。 - **時系列入力への ICL は「テキスト変換」を介すると知覚ボトルネックを生む**。Chow+ は時系列をテキスト化して LLM に入力するアプローチが知覚段階で情報損失を起こすと指摘し、軽量パッチエンコーダ + LoRA で 7B モデルが GPT-4o をゼロショット分類で上回ることを示した。ICL の限界はモデル能力ではなく入力表現の選択にある場合がある (Source: [[@2024__arXiv__Towards Time-Series Reasoning with LLMs]])。 - **コールドスタート CoT が RL の事前注入として機能する**。Time-R1 は少数の CoT フォーマット例で推論の型を定着させてから RL に移行する二段階戦略を採用した。これは ICL を「ファインチューニング前の方向づけ」として使う新しい用法で、純粋な推論時 ICL を超えて訓練パイプライン内に組み込まれる ICL の発展形態 (Source: [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]])。 - **AIOps 領域への適応的 ICL の応用で、例示の意味的関連性が量より効くことが実証された**: [[@2026__FSE Companion__Leveraging LLMs for Alert Summarization and Mitigation Plan Generation]](AIM)は、アラート要約・RCA・緩和計画生成というマルチモーダル(ログ・メトリクス・トレース・アラート)タスクに ICL を適用し、Sentence Transformer エンコーダとコサイン類似度検索で履歴インシデントから意味的に関連する上位 k 件の例示を動的に取得する adaptive ICL を提案した。fixed prompt(k=10)に対し adaptive prompt(k=5)は約 55% 少ないトークンで同等以上の ROUGE・コサイン類似度を達成し、「例示数を増やすより、意味的に関連した少数の例示を選ぶ方が効く」という、GPT-3 論文の「最適な例示選択戦略は未探索」という問い([[@2020__NeurIPS__Language Models are Few-Shot Learners]])に対する AIOps ドメインでの一つの実証的回答を与えた。(Source: [[@2026__FSE Companion__Leveraging LLMs for Alert Summarization and Mitigation Plan Generation]] Table 1, §4.4.2) - **サンプリング温度と ICL の相互作用は、モデルの instruction-tuning 度合いによって非対称に効く**: AIM の温度アブレーション(k=10 固定)では、DeepSeek-V3・LLaMA-3-70B が温度 0.3 でコサイン類似度・ROUGE ともに明確な改善(+0.4〜3%)を示す一方、GPT-4o は低温域全般で相対的に安定し改善幅がわずかであった。これは、文脈内学習の効果が「モデル規模」だけでなく「instruction-tuning の程度」にも依存するという観察であり、[[文脈内学習]] の既存知見(推論スタイルがモデル規模を凌駕する、cf. TimeReasoner)に、第三の変数(サンプリング温度とファインチューニング状態の相互作用)を加える。(Source: [[@2026__FSE Companion__Leveraging LLMs for Alert Summarization and Mitigation Plan Generation]] §4.4.1, Figure 3) - **ドメイン固有のシンボリック信号を ICL プロンプトに明示的に埋め込むと、意味理解の精度が有意に向上する**: AIM はルールベースの KPI しきい値表現(パーセンタイル分類による重大度)をプロンプトに含めるかどうかを比較し、含めた場合に全モデル・データセットで ROUGE-L・コサイン類似度が一貫して向上する(最大 +40.76%)ことを示した。これは、文脈内学習の「例示」だけでなく「シンボリックなドメイン信号の明示的な埋め込み」もまた、LLM の推論をシステム意味論に係留する要因になり得ることを示す、AIOps ドメイン特有の知見である。(Source: [[@2026__FSE Companion__Leveraging LLMs for Alert Summarization and Mitigation Plan Generation]] Table 2, §4.4.2) ## 未解決の問い - 文脈内学習はベイズ推論の近似か、単なるパターンマッチングか。モデルのコンテキスト活性化内で暗黙的な勾配降下が行われているのか。(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]]) - 例示の順序・選択が性能に与える影響の体系的理解。GPT-3 ではランダムサンプリングされた例示を使用しているが、最適な例示選択戦略は未探索である。(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]]) - 2 つのテキスト断片の比較を伴うタスク（WiC、RTE 等）で文脈内学習が体系的に弱い原因の解明。(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]]) - コンテキスト窓サイズ（GPT-3 では 2,048 トークン）の制約が例示数と性能の関係に与える影響。(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]]) - スロー思考 LLM における推論スタイルの誘導(観察第一の帰納 vs ヒューリスティックショートカット)をプロンプト設計で制御できるか。CoT 長の最適化と質の向上の両立はどのように達成するか。 - 知覚ボトルネックはテキスト変換固有か、それとも LLM の表現学習一般の限界か。TimeReasoner の純テキスト入力での競合性能と Chow+ の専用エンコーダの有効性が一見矛盾する。 - コールドスタート CoT の量的閾値(何件が最低限有効か)はドメインと基盤モデル能力でどう変動するか。 ## 横断的知見（追記分） - **文脈内学習の数学的実体は RNN 状態の更新である**。Transformer のアテンションをカーネル法で再定式化すると、状態 $w_n = \sum_i v_i \phi_A(c_i)$ がトークンを処理するたびに更新される RNN として書ける。これはキーとバリューの対応を逐次的に「学習」しており、通常の重み内学習（ニューラルタンジェントカーネルによる定式化）と同質の手続きである。文脈内学習と重み内学習の違いはパラメータが更新されるか否かではなく、どこに情報が蓄積されるかの違いにすぎない。(Source: [[joisino-トランスフォーマーはRNN-2024]]) ## 関連 - ソース: [[@2020__NeurIPS__Language Models are Few-Shot Learners]] / [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]] / [[@2026__FSE Companion__Leveraging LLMs for Alert Summarization and Mitigation Plan Generation]] - エンティティ: [[GPT-3]] / [[OpenAI]] / [[Jason Wei]] / [[Denny Zhou]] / [[Google Brain]] / [[AIM (framework)|AIM]] / [[Komal Sarda]] / [[DeepSeek-V3]] - 概念: [[Transformer]] / [[言語モデル事前学習]] / [[LLMスケーリング則]] / [[Chain-of-Thought Prompting]] / [[カーネル法]] / [[RNN]] / [[障害緩和]] / [[アラート要約]] ## 出典 - [[@2020__NeurIPS__Language Models are Few-Shot Learners]]（§2 Approach: 少数ショット・ワンショット・ゼロショットの定義、§1 Introduction: メタ学習器としての解釈、§3 Results: タスク別性能、§5 Limitations: 比較タスクの弱点） - [[@2026__FSE Companion__Leveraging LLMs for Alert Summarization and Mitigation Plan Generation]](§3.3 Adaptive In-Context Generation、§4.4.1 温度アブレーション、§4.4.2 Prompt Strategy・Table 1/2、Figure 3/4)