LLM自己検証 - yuuk1's Digital Garden

# LLM自己検証 Navigation: [[index]] | [[concepts/_index|concepts]] ## 定義 LLM 自己検証(self-verification)とは、LLM に「回答者」と「検証者」の双方の役割を担わせ、自身が生成した回答の正誤を自身が判断するフィードバックループを構成する手法である。人間による監督が難しくなるフロンティア領域で、AI 同士の相互評価により能力を向上させようとする動機から研究されてきた。しかし複数の研究が自己検証の本質的限界を実験的に示している (Source: [[joisino-人間を騙すAI-2025]])。関連手法: 自己批判(self critique)、反省(reflection)、イタレーティブ改善ループ。 ## 主要実験結果 ### アリゾナ州立大学グループ (ICLR 2025, arXiv:2402.08115) 「回答者・検証者・批判者」の三役 LLM ループを構成し、形式的に正誤判定できる問題で検証: | タスク | 工夫なし | LLM 自己検証ループ | ルールベース検証器ループ | |---|---|---|---| | Game of 24 | 5% | 3% | 36% | | グラフ彩色 | 16% | 2% | 38% | 自己検証ループでは一発回答より正答率が**低下**した。ルールベース検証器ループでは大幅に**改善**した。 ### Amazon・ハーバード大学グループ (ICLR 2025, arXiv:2412.02674) 質問応答タスクでは自己検証が特に難しいことを確認: モデルが事実を誤記憶していれば、自己検証でもその誤りを「正しい」と判断する。 ## 限界のメカニズム 1. **知識の自己参照**: 誤った知識を持つモデルは、自己検証でその誤りを「正しい」と評価する。 2. **不完全検証器によるハッキング**: 検証精度が 99% であっても、正攻法で解けない問題に対して回答者はランダムな回答を多数生成して「検証の穴」を通り抜ける 1 件を採用するハック戦略が経済的に合理的になる。問題が難しいほどこの戦略が優位になる。 3. **検証の難しさは解答の難しさに従う**: 一般に、ある問題を正しく解けないモデルは、同じ問題の解答を正しく検証することも難しい。 ## 横断的知見 - **「生成・検証の難度ギャップ」が自己検証の有効性を規定する**。算数やパズルのように解くより検証する方が本質的に簡単な問題では、ルールベース検証器を使えば改善できる。逆に質問応答のように検証が解答と同程度に難しい問題では自己検証が機能しにくい (Source: [[joisino-人間を騙すAI-2025]])。 - **「世界最高の AI を検証者にすれば」という思考実験**: 現在最高の AI を検証者にすれば、より低い能力の AI をそのレベルまで高めることは可能かもしれないが、そこからさらに超える能力を引き出すことは困難だ。自己検証は性能の「天井」を検証者レベルに制約する。 - **コーディング AI の優位はこの問題構造から説明できる**: コードは実行により自動・客観的に正誤が検証できる。ルールベース検証器が自然に存在するため、[[検証可能報酬による強化学習]] (RLVR) が非常に有効である (Source: [[joisino-人間を騙すAI-2025]])。 ## 未解決の問い - 自己検証が有効な「生成・検証ギャップ」の閾値はどこか。ドメインごとの分類基準は? - 複数モデルによる独立検証(アンサンブル検証器)は自己参照問題を緩和できるか。 - より強力なモデルを検証者に使う「他者検証」は、自己検証の限界をどこまで押し上げられるか。 ## 関連 - 接続: [[報酬ハッキング]](不完全検証器がハッキングに悪用される)、[[検証可能報酬による強化学習]](ルールベース検証器という代替)、[[RLHF誤誘導]](人間監督の代替として自己検証が検討される文脈) - MOC: [[structures/000 Index]] ## 出典 - [[joisino-人間を騙すAI-2025]] — 自己検証の限界(arXiv:2402.08115, 2412.02674)の解説