CoTモニタリング - yuuk1's Digital Garden

# CoTモニタリング ## 定義 CoT モニタリング（chain-of-thought monitoring）は、LLM が生成する**連鎖思考(CoT)推論トレース**を自動システムが解析し、安全でない可能性のある挙動を検出する手法である。最終出力だけを監視する従来アプローチと異なり、モデルの「思考過程」そのものを監視面(monitoring surface)として扱う。(Source: [[@2026__SAILBlog__CoT-Monitoring-Where-Does-a-Hot-Safety-Problem-Come-From]]) 典型的な実装では、プロンプト化した LLM（モニター）が対象モデルの CoT を読み取り、目標から逸脱した推論・危険な意図・ポリシー違反の兆候を検知する。 ## 知的起源 CoT モニタリングは 2 つの独立した研究系譜の収束として理解できる。(Source: [[@2026__SAILBlog__CoT-Monitoring-Where-Does-a-Hot-Safety-Problem-Come-From]]) ### 系譜①：監視フレームワーク（Hendrycks 2021） Hendrycks et al. 2021「Unsolved Problems in ML Safety」は、「モデルはポイントワイズに訓練・評価される→静的ベンチマークは実行時ハザードを見逃す」として**デプロイ後監視**の必要性を定式化した。コンプレックスシステムのテスト理論を ML 安全性に持ち込んだ点が基礎となる。([[Dan Hendrycks]]) ### 系譜②：CoT を説明可能性面として扱う NLP（2017–2018） - Ling et al. 2017: 数学問題に対する「rationale（根拠文）」を生成させる手法 - Camburu et al. 2018: explain-then-predict——先に自然言語説明を生成してから予測する枠組みこれらは CoT の推論トレースを**監視可能な自然言語表現**として確立した先駆けである。 ## タイムライン ``` 2017–2018 Ling / Camburu: CoT を説明可能性面として確立 2021 Hendrycks et al.: デプロイ後監視の必要性を体系化 Nov 2023 Naihin et al.「Testing Language Model Agents Safely in the Wild」 ——AutoGPT の推論を LLM モニターが自動監視する最初の実装例 2023–2025 18 ヶ月の空白（"CoT は安全上クリティカルでない"という通念） Sep 2024 OpenAI o1 リリース: 推論トレースをファーストクラスのモデル機能に格上げ 2025 Baker et al.: 初の正式 CoT モニタリング論文（41 著者）——初出から 4 ヶ月 2026 Anthropic・OpenAI 等で産業導入が本格化 ``` ### 18 ヶ月の空白 Naihin et al. 2023 から Baker et al. 2025 まで概念が停滞した背景は「CoT は安全上クリティカルな行動に必ずしも関与しない」という当時の通念。OpenAI o1（2024 年 9 月）が推論モデルを実用化したことで通念が崩れ、CoT モニタリングへの関心が一気に高まった。Bay Area・London の研究コミュニティでは 2025 年の正式論文発表以前から議論が周回していたとされる。 ## 未解決課題著者（Hase & Potts）が統合の必要性を指摘する 4 ストランド： 1. **CoT 忠実性(faithfulness)** — 推論トレースがモデルの実際の意思決定を反映しているか（Sprague et al.）。自己報告型の推論は必ずしも内部表現と対応しない 2. **LLM 内省(introspection)** — モデルが自己プロセスを正確に報告できる能力の限界 3. **自己検証(self-verification)** — 不確実性の「自白(confession)」をどう引き出し活用するか 4. **活性化モニタリング(activation monitoring)** — 自然言語トレースの外側、内部状態レベルでの監視との統合根本的問い: 「モデルが意思決定プロセスを監視可能な表現で記録するにはどうするか」 > [!gap] 忠実性問題 > CoT モニタリングの有効性はモデルの「推論トレース忠実性」に強く依存する。CoT が意思決定を正確に反映していなければ、モニターはシャドウを見ているに過ぎない。忠実性の保証手法は未成熟である。 ## 横断的知見 - [[エージェント運用安全性]] との関係: 本 wiki ではエージェントの「書き込み境界での検証」を中心概念として整理してきた。CoT モニタリングはその上流——「実行前に推論を検査する」アプローチとして補完的である。書き込み境界の検証（Actus / verification wall）が**実行時の外付けゲート**であるのに対し、CoT モニタリングは**推論段階の内在的監視**という位置づけになる。(Source: [[@2026__SAILBlog__CoT-Monitoring-Where-Does-a-Hot-Safety-Problem-Come-From]]) - [[AI検証可能性]] との関係: CoT モニタリングは AI 検証可能性を「推論トレースの読み取り可能性」に根拠づける試みとして解釈できる。推論が不透明なブラックボックスモデルでは原理的に成立しない。 ## 未解決の問い - この概念をどのソース群で継続的に検証するか。 ## 関連 - 概念: [[Chain-of-Thought Prompting]] / [[AI検証可能性]] / [[エージェント運用安全性]] / [[テスト時計算スケーリング]] - エンティティ: [[Peter Hase]] / [[Christopher Potts]] / [[Dan Hendrycks]] / [[Anthropic]] / [[OpenAI]] / [[Stanford University]] - ソース: [[@2026__SAILBlog__CoT-Monitoring-Where-Does-a-Hot-Safety-Problem-Come-From]] - 関連 structures: [[structures/000 Index.md]]（一方向参照） ## 出典 - [[@2026__SAILBlog__CoT-Monitoring-Where-Does-a-Hot-Safety-Problem-Come-From]]（全体）