@2026__SAILBlog__CoT-Monitoring-Where-Does-a-Hot-Safety-Problem-Come-From

# CoT Monitoring: Where Does a Hot Safety Problem Come From? Stanford AI Lab（SAIL）の Peter Hase と Christopher Potts が 2026 年 6 月 18 日に公開したブログ投稿。Chain-of-Thought（CoT）モニタリングが「ホットな安全性課題」として急浮上した経緯を知的系譜として解説する。 ## 核心的主張 ### CoT モニタリングの定義自動化システム（プロンプトされた LLM 等）が、最終出力だけでなく**モデルの CoT 推論トレース**を解析して安全でない可能性のある挙動を検出する手法。テスト時点では捕捉できない「実行時ハザード(runtime hazard)」に対応する監視実践として位置づけられる。 ### 2 つの知的起源 | 系譜 | 代表論文 | 貢献 | |---|---|---| | **監視フレームワーク** | Hendrycks et al. 2021「Unsolved Problems in ML Safety」 | 「モデルはポイントワイズに訓練・評価される→網羅性の改善に限界」としてデプロイ後監視の必要性を定式化 | | **CoT を説明可能性面として扱う NLP** | Ling et al. 2017（数学問題の rationale）、Camburu et al. 2018（explain-then-predict） | 自然言語推論トレースを監視可能な表面として確立 | ### タイムライン ``` 2017–2018 Ling / Camburu: rationale・explain-then-predict で「CoT を説明可能性面」の基礎 2021 Hendrycks et al.: デプロイ後監視の必要性を体系化 Nov 2023 Naihin et al.: AutoGPT の推論を LLM が自動監視——最初の実装例 2023–2025 18 ヶ月の空白（"CoT は安全上クリティカルでない"という通念） Sep 2024 OpenAI o1 リリース: 推論モデルの実用性が明確に 2025 Baker et al.: 初の正式 CoT モニタリング論文（41 著者） 2026 産業導入が広がる ``` ### 18 ヶ月の空白を解く Naihin et al. 2023 から Baker et al. 2025 まで概念が停滞した理由として著者らは「CoT は安全上クリティカルな行動に必ずしも関与しない」という当時の通念を挙げる。o1 の登場が推論トレースをファーストクラスのモデル機能に格上げし、安全性研究の焦点が一変した。 ## 関連する未解決課題著者らが今後の統合を必要とする 4 つの研究ストランド： 1. **CoT 忠実性(faithfulness)** — 推論が実際の意思決定を反映しているか（Sprague et al.） 2. **LLM 内省(introspection)** — モデルが自己プロセスを報告できるか 3. **自己検証(self-verification)** — 不確実性の「自白(confession)」 4. **活性化モニタリング(activation monitoring)** — 内部状態の追跡根本的問いは「モデルが意思決定プロセスを監視可能な表現で記録させるにはどうするか」。 ## 関連 - 概念: [[CoTモニタリング]] / [[Chain-of-Thought Prompting]] / [[エージェント運用安全性]] / [[AI検証可能性]] - エンティティ: [[Peter Hase]] / [[Christopher Potts]] / [[Dan Hendrycks]] / [[Anthropic]] / [[OpenAI]] / [[Stanford University]] - 関連 structures: [[structures/000 Index.md]]（一方向参照） ## 出典 - URL: https://ai.stanford.edu/blog/cot-monitoring-history/（取得: 2026-06-29） - 掲載媒体: SAIL Blog（Stanford Artificial Intelligence Laboratory）