2021__groupShapley - yuuk1's Digital Garden

Shapley値の計算を高速化する手法。数百、数千ある特徴量のうち、似たような特徴量を半ダース程度にグループ化して、グループ単位でShapley値を計算する。 > シャプレー値は、複雑な機械学習モデルからの予測を説明するための最も適切で理論的に健全なフレームワークの1つとして確立されている。説明の場におけるシャプレー値の人気は、おそらくそのユニークな理論的特性によるものです。しかし、シャプレー値の主な欠点は、その計算の複雑さが入力特徴の数で指数関数的に増大することであり、数百または数千の特徴があり得る多くの実世界の状況では実現不可能である。さらに、多くの（依存性のある）特徴がある場合、計算されたShapley値の表示・視覚化・解釈も困難になる。本論文では、上述のボトルネックに対処するための概念的にシンプルなアプローチであるgroupShapleyを紹介する。これは、特徴の種類や依存性などによって特徴をグループ化し、個々の特徴ではなく、これらのグループに対してShapley値を計算して表示するというものです。何百、何千もの特徴を半ダース程度に減らすことで、精密な計算が現実的に可能になり、プレゼンテーションや知識抽出が大幅に簡素化される。我々は、ある条件の下では、groupShapleyは、各特徴グループ内の特徴ごとのShapley値を合計することと同等であることを証明する。さらに、これらの条件が満たされない場合の違いを示すシミュレーション研究を提供します。また、自動車保険の例では、シンプルで直感的な説明を行うためにgroupShapleyが使用されており、本アプローチの有用性を示している。 [[2106.12228] groupShapley: Efficient prediction explanation with Shapley values for feature groups](https://arxiv.org/abs/2106.12228) <blockquote class="twitter-tweet"><p lang="ja" dir="ltr">groupShapley: SHAPは特徴量の数が増えると貢献度を求めるのがめっちゃ重くなる。そこで、似たような特徴量はまとめてグループごとに貢献度を求めるようにすると、計算も速くなるし解釈性もむしろ高くなるやんという内容。単純だけどなるほどと思った。 <a href="https://t.co/bBka8CYqyA">https://t.co/bBka8CYqyA</a></p>— 森下光之助 (@dropout009) <a href="https://twitter.com/dropout009/status/1408800332151357441?ref_src=twsrc%5Etfw">June 26, 2021</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> > ただ，論文を読んでないのでアレですが，これと同じ考え方はすでにあって，例えば画像では特徴量(ピクセル)数が大きいので，スーパーピクセルでグルーピングした領域でSHAPを計算するというのは，初めのSHAP提案論文で提案済みかつライブラリにも実装済みなんですよねぇ．