敵対的摂動 - yuuk1's Digital Garden

## 定義入力データに対して人間の知覚では区別できないほど微小な変動（摂動）を加えることで、機械学習モデルの予測を意図した方向に変化させる技術・現象。元来は「AI の脆弱性」として捉えられていたが、Ilyas+ NeurIPS 2019 以降、**これらの摂動はモデル固有の癖でもランダムノイズでもなく、人間には認知できないが汎化する正当な分類手がかりを含む**という再解釈が主流となった。 ## 旧解釈と新解釈の対比 | 観点 | 旧解釈（2018 年以前） | 新解釈（Ilyas+ 2019 以降） | |------|---------------------|--------------------------| | 摂動の正体 | ランダムノイズ・モデルの癖 | クラス固有の特徴パターン | | AI の反応 | 脆弱性・バグ | 正当な分類根拠の利用 | | 人間との比較 | AI が騙される = 間抜け | 人間が見えていない = 人間の限界 | | 実用的含意 | 攻撃対策が主 | 人間との認知格差として研究 | ## Ilyas+ NeurIPS 2019 の実験仮説を検証するために、「人間だけが騙されるデータセット」を構築した： 1. モデル A で犬画像から猫クラスの方向へ微小摂動 δ を生成。 2. (犬画像 + ε·δ) に「猫」ラベルを付け、逆も同様に構成した訓練データセットを作る。 3. このデータセットで別のモデル B を訓練すると、普通の（摂動なし）犬画像を「犬」と正答する。人間はラベルが反転しているため正しく学習できないが、AI は摂動に含まれる非可視の分類手がかりを読み取り正しく汎化する。 ## 微弱信号の集積（Tsipras+ ICLR 2019）個々には統計的に有意でない微弱な特徴も、高次元で束ねると強固な根拠になることを形式的に示した： - 100 万次元のうち各次元の信号差は人間が認知できないほど微弱（平均差 ±0.01、分散 1）。 - 全次元の平均を線形分類器に用いると精度 99.9999% 以上を達成。 - **要素還元主義的な単次元検定では問題が解けない構造的な例**。 ## 帰属手法との関係クラス活性化マッピング（CAM）や帰属手法（attribution methods）は「どの次元を見たか」を計算するが、高次元均一信号の場合： - すべての次元が同等に重要なため特定の「重要箇所」を示せない。 - 最大値次元を示しても負例でも同程度の確率で現れ、過信すると誤分類を招く。 - 法則が本質的に複雑であれば、人間が理解できる程度の単純な近似説明は常に誤りを含む。 → [[帰属手法]] および [[AI検証可能性]] を参照。 ## 横断的知見 - 敵対的摂動の「AI の脆弱性」から「認知格差の証拠」への再解釈は、AI の判断を人間が制御できるかという問いに直接接続する（Source: [[joisino-超人的AIと認知不能情報-2025]]）。 - AI の観測可能情報を人間と同じ範囲に制限すると AI も誤分類するという実験は、人間非可知情報の活用が AI 能力の**本質的な構成要素**であることを示す（Source: [[joisino-超人的AIと認知不能情報-2025]]）。 ## 未解決の問い - 画像以外のモダリティ（テキスト・音声・センサーデータ）で同様の「人間非可知の分類手がかり」は存在するか？ - 敵対的ロバスト性訓練は、人間非可知の正当な手がかりを意図せず削除していないか？ - 個々の微弱信号は本当にクラス固有の特徴か、それとも訓練分布のアーティファクトか？ ## 関連ページ - [[帰属手法]] — AI 判断の解釈手法。高次元均一信号での限界と接続。 - [[AI検証可能性]] — 解釈の代替として「検証」を据える戦略。 - [[機構的解釈性]] — AI 内部構造の解読アプローチ。 ## 出典 - Ilyas, A. et al. (NeurIPS 2019). *Adversarial Examples Are Not Bugs, They Are Features*. arXiv:1905.02175 - Tsipras, D. et al. (ICLR 2019). *Robustness May Be at Odds with Accuracy*. arXiv:1805.12152 - [[joisino-超人的AIと認知不能情報-2025]]