# Chain-of-Thought Prompting
## 定義
連鎖思考プロンプティング(chain-of-thought prompting、CoT)は、大規模言語モデルのプロンプト例示に最終答えだけでなく「中間推論ステップの自然言語系列(連鎖思考)」を含める手法である。プロンプトの各例示を「入力・連鎖思考・出力」の三つ組で構成することで、モデルが複雑な多段推論タスクを解く能力を引き出す。追加学習は一切不要で、少数の例示(典型的には 8 件)を提供するだけで有効である。(Source: [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]])
### 技術的性質
- **創発的能力**: 連鎖思考推論は約 1000 億パラメータ以上の大規模モデルにのみ正の効果をもたらす。小規模モデルでは流暢だが非論理的な連鎖思考を生成し、標準プロンプティングより性能が低下することがある。
- **適用範囲**: 算術推論・常識推論・記号推論の 3 分野に適用可能であり、原理的には人間が言語で解けるあらゆるタスクに拡張できる。
- **解釈可能性**: 生成された連鎖思考はモデルの推論パスへの解釈可能な窓を提供し、誤りのデバッグが可能になる。
- **汎化能力**: 連鎖思考プロンプティングは記号推論タスクにおいて例示より長い系列への分布外(OOD)汎化を促進する。
## 横断的知見
- 連鎖思考推論と[[文脈内学習]]の関係: CoT は文脈内学習の自然な拡張として位置づけられる。標準の少数ショットプロンプティング([[@2020__NeurIPS__Language Models are Few-Shot Learners]])は推論タスクで性能が飽和するが、連鎖思考を追加することで新たなスケーリング曲線が出現する。つまり、標準プロンプティングは大規模モデルの能力に対する下界のみを示す。(Source: [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]], [[@2020__NeurIPS__Language Models are Few-Shot Learners]])
- 中間推論ステップの質が重要: アブレーション研究により「可変計算量だけでは不十分」「答え後の連鎖思考も不十分」「数式のみも不十分」が示された。自然言語で表現された逐次推論の内容そのものが不可欠であり、形式や計算量だけでは説明できない。(Source: [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]])
## 未解決の問い
- 連鎖思考がモデルの「実際の推論」を反映しているか。見た目に妥当な推論パスが誤答に至るケースがあり、ニューラルネットの内部で何が起きているかは不明。(Source: [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]])
- 約 1000 億パラメータという創発の閾値は絶対的なものか、それとも訓練データ・アーキテクチャ・事後学習手法によって変わるか。より小さなモデルへの連鎖思考能力の蒸留はどこまで可能か。
- 連鎖思考の正確性を保証する手法の開発。Self-Consistency([[@2022__arXiv__Self-Consistency Improves Chain of Thought Reasoning]])や検証モデルの組み合わせが後続研究で探索されているが、根本的な解決には至っていない。
- 長い連鎖思考(>100 ステップ)・ネストした連鎖思考・マルチモーダルな連鎖思考への拡張可能性。
## 関連
- 概念: [[文脈内学習]] / [[言語モデル事前学習]] / [[LLMスケーリング則]] / [[テスト時計算スケーリング]]
- ソース: [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]]
- エンティティ: [[Jason Wei]] / [[Denny Zhou]] / [[Google Brain]]
- 関連 structures: [[structures/000 Index.md]](一方向参照)
## 出典
- [[@2022__NeurIPS__Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]](§2 Chain-of-Thought Prompting: 手法定義、§3 算術推論実験、§3.3 アブレーション、§5 記号推論 OOD 評価、§6 Discussion: 限界と未解決問い)