Chain-of-Thought Prompting - yuuk1's Digital Garden

# Chain-of-Thought Prompting ## 定義連鎖思考プロンプティング(chain-of-thought prompting、CoT)は、大規模言語モデルのプロンプト例示に最終答えだけでなく「中間推論ステップの自然言語系列(連鎖思考)」を含める手法である。プロンプトの各例示を「入力・連鎖思考・出力」の三つ組で構成することで、モデルが複雑な多段推論タスクを解く能力を引き出す。追加学習は一切不要で、少数の例示(典型的には 8 件)を提供するだけで有効である。(Source: [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]]) ### 技術的性質 - **創発的能力**: 連鎖思考推論は約 1000 億パラメータ以上の大規模モデルにのみ正の効果をもたらす。小規模モデルでは流暢だが非論理的な連鎖思考を生成し、標準プロンプティングより性能が低下することがある。 - **適用範囲**: 算術推論・常識推論・記号推論の 3 分野に適用可能であり、原理的には人間が言語で解けるあらゆるタスクに拡張できる。 - **解釈可能性**: 生成された連鎖思考はモデルの推論パスへの解釈可能な窓を提供し、誤りのデバッグが可能になる。 - **汎化能力**: 連鎖思考プロンプティングは記号推論タスクにおいて例示より長い系列への分布外(OOD)汎化を促進する。 ## 横断的知見 - 連鎖思考推論と[[文脈内学習]]の関係: CoT は文脈内学習の自然な拡張として位置づけられる。標準の少数ショットプロンプティング([[@2020__NeurIPS__Language Models are Few-Shot Learners]])は推論タスクで性能が飽和するが、連鎖思考を追加することで新たなスケーリング曲線が出現する。つまり、標準プロンプティングは大規模モデルの能力に対する下界のみを示す。(Source: [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]], [[@2020__NeurIPS__Language Models are Few-Shot Learners]]) - 中間推論ステップの質が重要: アブレーション研究により「可変計算量だけでは不十分」「答え後の連鎖思考も不十分」「数式のみも不十分」が示された。自然言語で表現された逐次推論の内容そのものが不可欠であり、形式や計算量だけでは説明できない。(Source: [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]]) ## CoT モニタリングとの接続 CoT モニタリング（[[CoTモニタリング]]）は CoT 推論トレースを安全性監視の面として使う手法で、2025–2026 年に急速に注目を集めた。Hase & Potts 2026（[[@2026__SAILBlog__CoT-Monitoring-Where-Does-a-Hot-Safety-Problem-Come-From]]）は CoT を「監視可能な説明可能性面」として位置づける知的系譜の 2 本柱——Ling et al. 2017 の rationale と Camburu et al. 2018 の explain-then-predict——を本概念の先駆けとして整理している。CoT モニタリングの有効性はこの概念の中核的未解決問い「CoT はモデルの実際の推論を反映しているか（忠実性問題）」に直接依存する。(Source: [[@2026__SAILBlog__CoT-Monitoring-Where-Does-a-Hot-Safety-Problem-Come-From]]) ## 未解決の問い - **CoT の拡張パラダイム**: ReAct は CoT の推論トレースに外部環境への「行動」を挟み込み、推論と行動の相乗効果を実現する。CoT 単体では内部知識の幻覚に弱いが、ReAct は外部情報源への検索行動で事実を接地できる。一方 ReAct は構造的推論(複数情報の統合比較)では CoT に劣る場面があり、CoT-SC → ReAct のフォールバック併用が最良の性能を示す。両者は排他的でなく相補的である。(Source: [[@2023__ICLR__ReAct Synergizing Reasoning and Acting in Language Models]], [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]]) - **RLHF と CoT の関係**: InstructGPT の RLHF 訓練は指示追従能力を向上させるが、CoT 推論能力への直接的な影響は明示されていない。RLHF で整列されたモデル上で CoT を適用する組み合わせが事実上の標準となっているが、RLHF が CoT の質を向上させるのか劣化させるのかは系統的に検証されていない。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]], [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]]) - 連鎖思考がモデルの「実際の推論」を反映しているか。見た目に妥当な推論パスが誤答に至るケースがあり、ニューラルネットの内部で何が起きているかは不明。(Source: [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]]) - 約 1000 億パラメータという創発の閾値は絶対的なものか、それとも訓練データ・アーキテクチャ・事後学習手法によって変わるか。より小さなモデルへの連鎖思考能力の蒸留はどこまで可能か。 - 連鎖思考の正確性を保証する手法の開発。Self-Consistency([[@2022__arXiv__Self-Consistency Improves Chain of Thought Reasoning]])や検証モデルの組み合わせが後続研究で探索されているが、根本的な解決には至っていない。 - 長い連鎖思考(>100 ステップ)・ネストした連鎖思考・マルチモーダルな連鎖思考への拡張可能性。 ## 関連 - 概念: [[文脈内学習]] / [[言語モデル事前学習]] / [[LLMスケーリング則]] / [[テスト時計算スケーリング]] / [[ReAct]] / [[人間フィードバックからの強化学習]] / [[指示チューニング]] / [[CoTモニタリング]] - ソース: [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]] / [[@2023__ICLR__ReAct Synergizing Reasoning and Acting in Language Models]] / [[@2022__NeurIPS__Training language models to follow instructions with human feedback]] - エンティティ: [[Jason Wei]] / [[Denny Zhou]] / [[Google Brain]] / [[Shunyu Yao]] / [[Long Ouyang]] / [[OpenAI]] - 関連 structures: [[structures/000 Index.md]](一方向参照) ## 出典 - [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]]（§2 Chain-of-Thought Prompting: 手法定義、§3 算術推論実験、§3.3 アブレーション、§5 記号推論 OOD 評価、§6 Discussion: 限界と未解決問い） - [[@2023__ICLR__ReAct Synergizing Reasoning and Acting in Language Models]]（§3 ReAct での CoT との比較・フォールバック併用、§3.3 行動接地による幻覚抑制） - [[@2022__NeurIPS__Training language models to follow instructions with human feedback]]（RLHF による指示追従と CoT の組み合わせの事実上の標準化）