## 定義 AI の推論プロセスそのものを人間が理解できなくても、**AI の出力に対して人間が独立に正誤を確認できる証拠**(経路・証明・双対解など)を要求することで、安全かつ有効に AI を活用する設計戦略。「探索は AI に任せ、人間は検証を担当する」という役割分担を中心に置く。 ## 動機 - AI が認知する情報([[敵対的摂動]]、高次元微弱信号など)は人間の知覚能力を超えており、推論プロセスの直接理解は原理的に困難。 - [[帰属手法]] のような説明手法も、法則が本質的に複雑な場合は有効でない。 - それでも AI の能力を安全に活用するための代替として「検証」を据える。 ## 探索と検証の非対称性 科学・工学の多くの問題は「探索(難)+ 検証(易)」に自然に分解できる: | 領域 | 探索(AI) | 検証(人間) | |------|-----------|------------| | タンパク質設計 | 有望な配列を提案(AlphaFold 等) | 生物活性の試験(実験) | | 数学的証明 | 証明の構成 | 各ステップの正しさの確認 | | 組合せ最適化 | ハミルトン閉路・最適経路の発見 | 経路の有効性チェック(線形時間) | | 科学的発見 | 新しい仮説・法則の提案 | 実験・再現による検証 | ## NP 完全性との接続 計算複雑性理論の NP クラスはこの構造を形式化している: - **探索**:解を見つける(NP 困難。指数時間が必要なケースが存在)。 - **検証**:与えられた解が正しいかを確認する(多項式時間で可能)。 **重要な含意**:AI が意地悪で誤答を出力しても、能力の低い人間でも証拠を検証して真偽を確実に判断できる。AI を「信頼」する必要がなく、「検証」だけで十分。 (Source: [[joisino-超人的AIと認知不能情報-2025]]) ## 双対問題による挟み込み 単純な解の出力より巧妙な検証方法として、上界と下界を同時に要求できる: - 巡回セールスマン問題(TSP)では、AI に「経路(上界 Y)」と「双対解(下界 X)」を出力させる。 - X ≤ 最適値 ≤ Y であることは弱双対性から確実に成立し、X = Y なら最適性が保証される。 - AI が悪意を持って「良さそうだが最適でない経路」を出力しても、双対解なしには人間が気づけないリスクを、双対解の要求で解消できる。 ## 対話型証明系への発展 Goldwasser+ STOC 1985 以降の対話型証明系(interactive proof system)の理論は、この考え方をさらに拡張する: - IP = PSPACE:AI(証明者)と人間(検証者)が対話を繰り返すことで、NP を大幅に超える問題クラスの検証が可能。 - MIP = NEXPTIME:独立した複数の AI(証明者)とやりとりすることでさらに拡張。 - 能力の低い人間の検証者でも、対話の設計次第で超高難度問題の正誤を確認できる。 ## 検証作業の知的高度化 探索が AI にオフロードされると: 1. 人間が扱える問題の難易度・規模が格段に上がる。 2. 以前は探索がボトルネックだった問題が解けるようになり、さらに難しい問題が登場する。 3. 今度は「検証作業」が人類の知力のボトルネックとなり、検証そのものが知的フロンティアになる。 ## 横断的知見 - この「探索-検証の分業」は天才のひらめきでも同様(なぜひらめいたかが説明できなくても結果を検証できる)という点で、AI 特有の問題ではなく**認識論的な構造問題**である(Source: [[joisino-超人的AIと認知不能情報-2025]])。 - 「AI に何を入力して何を出力させるか」という問題の「型」は人間が定めることができる。AI の思考をブラックボックスのままにしつつ、検証しやすい出力形式を設計することが重要。 ## 未解決の問い - 対話型証明系の理論的な能力限界を、実用的な AI システムでどこまで実現できるか? - 「検証が簡単な問題」の形式化は一般にどのくらい可能か?探索-検証の非対称性が成立しない問題クラスは何か? - AI が悪意を持つという仮定なしでも(確率的エラーや幻覚の場合でも)同様の検証フレームワークは有効か? ## 関連ページ - [[敵対的摂動]] — AI が人間非可知情報を使う根拠。解釈困難の出発点。 - [[帰属手法]] — 解釈アプローチの限界。検証アプローチの動機。 - [[機構的解釈性]] — 内部構造からの別アプローチ。 - [[Chain-of-Thought Prompting]] — CoT は探索の中間ステップを可視化し検証可能にする手法とも読める。 ## 出典 - Goldwasser, S., Micali, S., Rackoff, C. (STOC 1985). *The Knowledge Complexity of Interactive Proof Systems*. - [[joisino-超人的AIと認知不能情報-2025]]