AI検証可能性 - yuuk1's Digital Garden

## 定義 AI の推論プロセスそのものを人間が理解できなくても、**AI の出力に対して人間が独立に正誤を確認できる証拠**（経路・証明・双対解など）を要求することで、安全かつ有効に AI を活用する設計戦略。「探索は AI に任せ、人間は検証を担当する」という役割分担を中心に置く。 ## 動機 - AI が認知する情報（[[敵対的摂動]]、高次元微弱信号など）は人間の知覚能力を超えており、推論プロセスの直接理解は原理的に困難。 - [[帰属手法]] のような説明手法も、法則が本質的に複雑な場合は有効でない。 - それでも AI の能力を安全に活用するための代替として「検証」を据える。 ## 探索と検証の非対称性科学・工学の多くの問題は「探索（難）+ 検証（易）」に自然に分解できる： | 領域 | 探索（AI） | 検証（人間） | |------|-----------|------------| | タンパク質設計 | 有望な配列を提案（AlphaFold 等） | 生物活性の試験（実験） | | 数学的証明 | 証明の構成 | 各ステップの正しさの確認 | | 組合せ最適化 | ハミルトン閉路・最適経路の発見 | 経路の有効性チェック（線形時間） | | 科学的発見 | 新しい仮説・法則の提案 | 実験・再現による検証 | ## NP 完全性との接続計算複雑性理論の NP クラスはこの構造を形式化している： - **探索**：解を見つける（NP 困難。指数時間が必要なケースが存在）。 - **検証**：与えられた解が正しいかを確認する（多項式時間で可能）。 **重要な含意**：AI が意地悪で誤答を出力しても、能力の低い人間でも証拠を検証して真偽を確実に判断できる。AI を「信頼」する必要がなく、「検証」だけで十分。（Source: [[joisino-超人的AIと認知不能情報-2025]]） ## 双対問題による挟み込み単純な解の出力より巧妙な検証方法として、上界と下界を同時に要求できる： - 巡回セールスマン問題（TSP）では、AI に「経路（上界 Y）」と「双対解（下界 X）」を出力させる。 - X ≤ 最適値 ≤ Y であることは弱双対性から確実に成立し、X = Y なら最適性が保証される。 - AI が悪意を持って「良さそうだが最適でない経路」を出力しても、双対解なしには人間が気づけないリスクを、双対解の要求で解消できる。 ## 対話型証明系への発展 Goldwasser+ STOC 1985 以降の対話型証明系（interactive proof system）の理論は、この考え方をさらに拡張する： - IP = PSPACE：AI（証明者）と人間（検証者）が対話を繰り返すことで、NP を大幅に超える問題クラスの検証が可能。 - MIP = NEXPTIME：独立した複数の AI（証明者）とやりとりすることでさらに拡張。 - 能力の低い人間の検証者でも、対話の設計次第で超高難度問題の正誤を確認できる。 ## 検証作業の知的高度化探索が AI にオフロードされると： 1. 人間が扱える問題の難易度・規模が格段に上がる。 2. 以前は探索がボトルネックだった問題が解けるようになり、さらに難しい問題が登場する。 3. 今度は「検証作業」が人類の知力のボトルネックとなり、検証そのものが知的フロンティアになる。 ## 横断的知見 - この「探索-検証の分業」は天才のひらめきでも同様（なぜひらめいたかが説明できなくても結果を検証できる）という点で、AI 特有の問題ではなく**認識論的な構造問題**である（Source: [[joisino-超人的AIと認知不能情報-2025]]）。 - 「AI に何を入力して何を出力させるか」という問題の「型」は人間が定めることができる。AI の思考をブラックボックスのままにしつつ、検証しやすい出力形式を設計することが重要。 ## 未解決の問い - 対話型証明系の理論的な能力限界を、実用的な AI システムでどこまで実現できるか？ - 「検証が簡単な問題」の形式化は一般にどのくらい可能か？探索-検証の非対称性が成立しない問題クラスは何か？ - AI が悪意を持つという仮定なしでも（確率的エラーや幻覚の場合でも）同様の検証フレームワークは有効か？ ## 関連ページ - [[敵対的摂動]] — AI が人間非可知情報を使う根拠。解釈困難の出発点。 - [[帰属手法]] — 解釈アプローチの限界。検証アプローチの動機。 - [[機構的解釈性]] — 内部構造からの別アプローチ。 - [[Chain-of-Thought Prompting]] — CoT は探索の中間ステップを可視化し検証可能にする手法とも読める。 ## 出典 - Goldwasser, S., Micali, S., Rackoff, C. (STOC 1985). *The Knowledge Complexity of Interactive Proof Systems*. - [[joisino-超人的AIと認知不能情報-2025]]