# Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
> [!info] Source
> Jason Wei ほか([[Google Research]] [[Google Brain]])、NeurIPS 2022。arXiv:2201.11903。
## 概要(abstract の日本語訳)
連鎖思考(chain of thought)——一連の中間推論ステップ——を生成させることが、大規模言語モデルの複雑推論能力を大幅に向上させることを明らかにした。この推論能力は、十分に大きな言語モデルにおいて「連鎖思考プロンプティング」という単純な手法によって自然に創発する。連鎖思考プロンプティングでは、少数の連鎖思考例示をプロンプトの範例(exemplar)として提供する。
3 種類の大規模言語モデルを対象とした実験では、連鎖思考プロンプティングが算術・常識・記号的推論タスクで幅広く性能を改善する。実証的な改善幅は顕著で、PaLM 540B への 8 件の連鎖思考例示だけで数学文章題ベンチマーク GSM8K において SOTA を達成し、検証器付きファインチューニング GPT-3 を超えた。
## 問題設定
大規模言語モデルはスケールアップで多くの能力が改善するが、算術・常識・記号推論のような多段推論タスクは規模拡大だけでは性能が改善しない。既存のアプローチは 2 つに分かれる:
1. **理由付き学習/微調整**: 自然言語中間ステップ付きデータでモデルを学習させるが、高品質なデータ作成コストが高い。
2. **標準プロンプティング**: 入出力ペア例示で文脈内学習させるが、推論タスクでは機能しない。
本論文はこの 2 つの強みを組み合わせ、欠点を回避することを目指す。
## 提案手法: 連鎖思考プロンプティング
プロンプト内の各例示を「入力・**連鎖思考**・出力」の三つ組(hinput, chain of thought, outputi)で構成する。連鎖思考は最終出力に至る一連の中間自然言語推論ステップである。
- ファインチューニング不要。モデルパラメータは一切変更しない。
- 8 件程度の手作業例示で有効。特定のプロンプトエンジニアリングは不要。
- 単一モデルチェックポイントで多タスクに対応できる汎用性を維持。
### 連鎖思考プロンプティングの特徴
1. 多段問題を中間ステップに分解することで、困難な問題により多くの計算を割り当てられる。
2. モデルが答えに至った推論パスの解釈可能な窓を提供する(デバッグや誤りの特定が可能)。
3. 数学文章題・常識推論・記号操作に適用可能で、人間が言語で解ける任意のタスクに原理的に適用できる。
4. 十分大きな既製モデルへの例示提供だけで推論を引き出せる。
## 実験設定
### 対象言語モデル
- GPT-3(350M/1.3B/6.7B/175B: text-ada/babbage/curie/davinci 各モデル)
- LaMDA(422M/2B/8B/68B/137B)
- PaLM(8B/62B/540B)
- UL2 20B
- Codex(code-davinci-002)
### 評価タスク
- **算術推論**: GSM8K・SVAMP・ASDiv・AQuA・MAWPS の 5 ベンチマーク
- **常識推論**: CSQA・StrategyQA・Date Understanding・Sports Understanding・SayCan の 5 データセット
- **記号推論**: Last Letter Concatenation・Coin Flip の 2 タスク(分布内・分布外評価)
## 実験結果
### 算術推論
- PaLM 540B が GSM8K で 57% の解率を達成し、ファインチューニング GPT-3 175B(55%)および先行 SOTA(33%)を超えた。
- SVAMP・MAWPS でも SOTA を達成。
- **スケールに関する知見**: 連鎖思考プロンプティングは小モデルには逆効果で、約 1000 億パラメータ以上の大モデルにのみ正の効果をもたらす創発的能力である。
- **難易度感応性**: より難しい問題(GSM8K)で改善幅が大きく、容易な問題(SingleOp)では改善なし。
### アブレーション研究
- **方程式のみ**: 中間ステップなしに数式だけ出力させても GSM8K では効果なし(自然言語推論ステップが重要)。
- **可変計算のみ**: ドット列で可変トークン数だけ出力させても効果なし(中間ステップの表現内容が重要)。
- **答えの後に連鎖思考**: 最終答えの後にのみ連鎖思考を出力させると標準と同等(逐次推論の順序が必要)。
### 常識推論
- PaLM 540B の連鎖思考プロンプティングが StrategyQA で SOTA(75.6% vs 69.4%)、Sports Understanding で人間愛好家を超えた(95.4% vs 84%)。
### 記号推論
- 分布内評価: PaLM 540B でほぼ 100% の解率。
- 分布外評価(OOD): 標準プロンプティングは失敗するが、連鎖思考では規模拡大に比例する性能向上曲線が出現(長さ汎化を促進)。
## 頑健性
- 異なる注釈者(B・C)が独立に書いた連鎖思考でも標準を大幅に上回る。
- 簡潔なスタイルの連鎖思考でも有効。
- GSM8K 訓練セットからランダムサンプリングした例示でも同等の結果。
- 例示順序や例示数の変化に対して頑健。
## 新規性
- 連鎖思考推論が**モデルスケールの創発的能力**であることを初めて体系的に実証した。
- 追加学習なしの純粋プロンプティングで算術・常識・記号推論の全域にわたる SOTA を達成した初の報告。
- 連鎖思考が記号推論の OOD 汎化(長さ汎化)を可能にすることを示した。
## 考察と限界
- 連鎖思考が人間の推論過程を模倣するが、ニューラルネットが「実際に推論しているか」は未解決。
- 少数ショット設定での例示への手動注釈コストは低いが、微調整に向けたデータ作成は依然高コスト。
- 正しい推論パスの保証はなく、誤りを含む推論でも正解に到達するケースがある。
- 大規模モデルでのみ機能するため、実用上のサービングコストが高い。
- LaMDA 137B のエラー分析: 正解の 96% が論理的・数学的に正しい連鎖思考を持つ一方、誤答の 46% は軽微な誤り(計算ミス・記号対応ミス・推論ステップ欠落)で、54% は意味的理解や整合性の根本的誤り。
## 強み
- 手法のシンプルさ: プロンプトを変えるだけで実現できる。
- 汎用性: 3 種類の推論タイプに適用可能。
- 後続研究への礎: 多数の CoT 派生手法(Self-Consistency など)の起点となった。
## 弱点
- 大規模モデルへの依存: ~100B パラメータ未満のモデルでは逆効果になることがある。
- 正確性の保証なし: 見た目に妥当な推論パスが誤答に至ることがある。
- 評価の幅: 標準的な推論ベンチマークのみで、より長い推論チェーン・マルチホップ複雑推論の評価は後続研究に委ねられた。
## 関連
- [[文脈内学習]] — 本論文はフューショット連鎖思考を文脈内学習の拡張として定式化する。
- [[Chain-of-Thought Prompting]] — 本論文が提案した概念の概念ページ。
- [[言語モデル事前学習]] — 連鎖思考能力は事前学習で獲得された知識に依存する。
- [[LLMスケーリング則]] — 創発的能力としての連鎖思考はスケーリング則の不連続性を示す。
- [[Google Brain]] — 著者所属機関。
- [[Jason Wei]] — 筆頭著者。
- [[Denny Zhou]] — 責任著者。
- [[@2020__NeurIPS__Language Models are Few-Shot Learners]] — 標準フューショットプロンプティングのベースライン。
- [[@2017__NeurIPS__Attention Is All You Need]] — Transformer の基礎論文。
## 出典
- arXiv:2201.11903v6 [cs.CL] 2023-01-10 (NeurIPS 2022 採録)
- PDF: `.raw/papers/arxiv-2201.11903.pdf`