# カーネル密度推定 ## 定義 カーネル密度推定(kernel density estimation, KDE)は、パルツェン窓(Parzen, 1962)としても知られるノンパラメトリック密度推定法であり、データの背後にある確率密度関数を、パラメトリックな分布族の仮定なしに推定する。$X_1, \dots, X_n \in \mathbb{R}^d$ を独立同分布標本とするとき、KDE は次式で定義される: $\hat{p}_n(x) = \frac{1}{nh^d} \sum_{i=1}^{n} K\!\left(\frac{x - X_i}{h}\right)$ ここで $K: \mathbb{R}^d \to \mathbb{R}$ は**カーネル関数**(ガウスカーネル、球状カーネル等の滑らかな関数)、$h > 0$ は**帯域幅**(バンドウィドス)と呼ばれる平滑化パラメータである。直感的には、各データ点をカーネル関数で決まる滑らかなバンプに変換し、その総和で密度を推定する。 帯域幅 $h$ が小さすぎると推定は過度に揺らぎ(アンダースムージング)、大きすぎると特徴が消失する(オーバースムージング)。MISE(平均積分二乗誤差)を最小化する最適帯域幅は $h_{\text{opt}} = O(n^{-1/(d+4)})$ のオーダーであり、対応する最適 MISE は $O(n^{-2/(d+4)})$ で収束する。カーネル関数の選択は推定誤差に対して定数シフトの影響しか持たず、帯域幅選択に比べて重要度は低い。(Source: [[@2017__arXiv__A Tutorial on Kernel Density Estimation and Recent Advances]]) 帯域幅選択の主要手法として、経験則(Silverman, 1986)、最小二乗交差検証(Rudemo, 1982)、バイアス付き交差検証(Scott & Terrell, 1987)、プラグイン法(Sheather & Jones, 1991)がある。 KDE は密度関数そのものだけでなく、密度の幾何学的・位相的特徴(局所モード、レベルセット、リッジ、クラスターツリー、パーシステント図)の推定にも応用される。信頼区間・信頼帯の構成ではバイアスの取り扱いが本質的課題であり、アンダースムージング、バイアス補正(オーバースムージング)、バイアスの無視という3つの戦略が提案されている。(Source: [[@2017__arXiv__A Tutorial on Kernel Density Estimation and Recent Advances]]) ## 横断的知見 - (1ソース目のため横断的知見は今後蓄積する。[[密度ベースクラスタリング]]との接続については以下の未解決の問いを参照。) ## 未解決の問い - KDE の最適収束レート $O(n^{-2/(d+4)})$ は次元 $d$ が大きいと極めて遅い(次元の呪い)。密度サロゲートへの切り替えが示唆されているが、適切なサロゲートと推定量の選択は未確立である(Chen, 2017 §6) - 幾何学的・位相的構造(局所モード、レベルセット、リッジ等)を最適に推定する帯域幅選択法は未解決である。MISE のセット推定量への一般化が必要とされている(Chen, 2017 §6) - 回帰関数・ハザード関数・生存関数に対するカーネルスムージングの信頼帯構成は未解決問題である(Chen, 2017 §6) - DENCLUE(Hinneburg & Keim 1998)は KDE に基づく密度ベースクラスタリング手法であり、KDE の帯域幅選択が DENCLUE のクラスタリング性能にどう影響するかの体系的検証が求められる。[[密度ベースクラスタリング]]の HDBSCAN は相互到達可能距離に基づく階層的アプローチで帯域幅の明示的選択を回避したが、KDE ベースの手法との理論的接続は十分に整理されていない ## 関連 - ソース: [[@2017__arXiv__A Tutorial on Kernel Density Estimation and Recent Advances]] - エンティティ: [[Yen-Chi Chen]]、[[University of Washington]] - 接続概念: [[密度ベースクラスタリング]](DENCLUE は KDE ベースのクラスタリング手法。モードクラスタリングは KDE の局所モードに基づく) ## 出典 - [[@2017__arXiv__A Tutorial on Kernel Density Estimation and Recent Advances]]