## 定義 機械学習モデルが特定の予測を出力した際に、入力の各次元・各位置がその予測にどれだけ「貢献」したかを数値化する手法群。可視化による説明可能 AI(Explainable AI)の主要アプローチ。代表例: - **クラス活性化マッピング(class activation mapping; CAM)**(Zhou+ CVPR 2016):最終畳み込み層の出力を重み付き平均し、どの空間領域を見て予測したかをヒートマップで示す。 - **帰属スコア(attribution score)**:入出力ヤコビアン・Integrated Gradients・SHAP・LIME など、各入力次元の勾配や摂動に基づく重要度計算。 ## 目的と前提 「AI がなぜその判断をしたか」を人間が理解可能な形で説明することを目的とする。前提として「重要な次元・位置が少数に集中している」という暗黙の仮定がある。 ## 本質的な限界(高次元均一信号ケース) [[敵対的摂動]] の文脈で明らかになった構造的な限界: - 分類根拠が 100 万次元に**均等に分散**している場合、すべての次元が同程度に重要となり「どこを見たか」が特定できない。 - 全次元が同等に重要なため、可視化すると「すべてが真っ赤」になり情報を提供しない。 - 正例で最大値を示す次元を「重要な根拠」として示しても、その値は負例でもほぼ同確率で出現するため誤誘導になりうる。 - 法則そのものが本質的に複雑であれば、人間が理解できるほど単純な説明への近似は**近似であって真実ではない**(誤りを含む)。 (Source: [[joisino-超人的AIと認知不能情報-2025]]) ## 要素還元主義との接続 科学では複雑な対象を単純な要素に分解して分析する(例:たばこ ← → 肺がんリスク)。しかし: - 個別要素の効果量が統計的有意水準を下回る場合でも、全体として問題が解ける構造がありうる。 - 各要素を一つずつ調べる手法では、このような問題は**原理的に解けない**。 これは帰属手法が本質的に「要素還元主義的な説明」を提供しようとする点と同じ構造上の限界を持つことを意味する。 ## 横断的知見 - 機構的解釈性([[機構的解釈性]])は注意ヘッドや回路の役割を同定することで帰属手法とは異なるアプローチを取るが、どちらも「法則が複雑な場合」には説明能力に上限がある。 - 帰属手法の限界は「解釈ではなく検証」に軸足を移す[[AI検証可能性]]の動機になっている(Source: [[joisino-超人的AIと認知不能情報-2025]])。 ## 未解決の問い - 高次元均一信号に対して有効な帰属手法は存在するか?存在しないとすれば情報論的な意味での証明は可能か? - 帰属手法の「近似的説明」が実用上安全な範囲と危険な範囲はどこで分かれるか? - 機構的解釈性の手法(回路の同定)は帰属手法の限界を補完できるか? ## 関連ページ - [[敵対的摂動]] — 帰属手法の限界が明確に現れる文脈 - [[機構的解釈性]] — 補完的な内部構造解析アプローチ - [[AI検証可能性]] — 解釈の代替としての検証戦略 ## 出典 - Zhou, B. et al. (CVPR 2016). *Learning Deep Features for Discriminative Localization*. - [[joisino-超人的AIと認知不能情報-2025]]