@2017__arXiv__A Tutorial on Kernel Density Estimation and Recent Advances

# A Tutorial on Kernel Density Estimation and Recent Advances > [!abstract] > 本チュートリアルは、カーネル密度推定（KDE）とその近年の発展――信頼帯および幾何学的・位相的特徴の推定――に関するやさしい入門を提供する。まず KDE の基本的性質として、各種メトリクスにおける収束レート、密度導関数の推定、帯域幅選択を論じる。次に、信頼区間・信頼帯の構成に関する一般的アプローチを紹介し、バイアスの取り扱いについて議論する。続いて、KDE を用いた密度関数の幾何学的・位相的特徴の推定に関する近年の進展を述べる。最後に、KDE を用いた累積分布関数および ROC 曲線の推定を例示する。 ## 論文情報 | 項目 | 内容 | |---|---| | タイトル | A Tutorial on Kernel Density Estimation and Recent Advances | | 著者 | [[Yen-Chi Chen]]（[[University of Washington]]、統計学部） | | 発表年 | 2017 | | 掲載 | Biostatistics & Epidemiology（チュートリアル論文）。arXiv: 1704.03924 | | カテゴリ | stat.ME, stat.OT | | キーワード | kernel density estimation, nonparametric statistics, confidence bands, bootstrap | ## 概要 KDE はパルツェン窓（Parzen, 1962）としても知られるノンパラメトリック密度推定法であり、データの背後にある確率密度関数をパラメトリックな仮定なしに推定する。本チュートリアルは KDE の統計的性質から始めて、信頼区間・信頼帯の構成におけるバイアス処理、密度関数の幾何学的・位相的構造の推定、CDF・ROC 曲線の推定までを体系的に概観する。R の実装コードも付属する。 ## 問題設定 $X_1, \dots, X_n \in \mathbb{R}^d$ を未知の分布 $P$（密度関数 $p$）からの独立同分布標本とする。KDE は次式で定義される: $\hat{p}_n(x) = \frac{1}{nh^d} \sum_{i=1}^{n} K\!\left(\frac{x - X_i}{h}\right)$ ここで $K: \mathbb{R}^d \to \mathbb{R}$ はカーネル関数（ガウスカーネル、球状カーネル等）、$h > 0$ は平滑化帯域幅である。各データ点を滑らかなバンプに変換し、その総和で密度を推定する。 ![[fig2-kde-1d-illustration.png]] *図2: 1次元 KDE の構成。6個の観測値（黒線）を滑らかなバンプ（赤）に変換し、総和して密度推定（青曲線）を得る。* ## 提案手法 ### 収束レート KDE の推定誤差はバイアス $B_h(x)$ と確率的変動 $E_n(x)$ に分解される。各種誤差指標における収束レートは以下のとおりである: - **点ごとの誤差**: $\hat{p}_n(x) - p(x) = O(h^2) + O_P\!\left(\sqrt{1/(nh^d)}\right)$ - **一様誤差**（$L_\infty$ 誤差）: $\sup_x |\hat{p}_n(x) - p(x)| = O(h^2) + O_P\!\left(\sqrt{\log n/(nh^d)}\right)$ - **MISE**（平均積分二乗誤差）: バイアスと分散のトレードオフを反映し、最適帯域幅の下で $O(n^{-2/(d+4)})$ に収束する MISE を最小化する最適帯域幅は: $h_{\text{opt}} = \left(\frac{d \cdot \mu_K}{\sigma_K^4 \int |\nabla^2 p(x)|^2 dx}\right)^{1/(d+4)} \cdot n^{-1/(d+4)}$ ### 密度導関数の推定 KDE の導関数はそのまま密度導関数の推定量となる。$[\beta]$ 次偏微分の誤差レートは $O(h^2) + O_P\!\left(\sqrt{1/(nh^{d+2|\beta|})}\right)$ である。勾配やヘッセ行列の推定は、幾何学的特徴（§4）の推定に不可欠である。 ### 帯域幅選択帯域幅 $h$ の選択は KDE の最も古典的な研究課題である。主要な手法は以下の4種類に大別される: 1. **経験則**（rule of thumb, Silverman 1986） 2. **最小二乗交差検証**（least square cross-validation, Rudemo 1982 等） 3. **バイアス付き交差検証**（biased cross-validation, Scott & Terrell 1987） 4. **プラグイン法**（plug-in method, Sheather & Jones 1991）いずれも AMISE（漸近 MISE）またはそれに類する誤差指標の最小化を核とする。帯域幅選択に対してカーネル関数の選択は推定誤差に対する影響が定数シフトにとどまり、実用上は重要でない。 ![[fig3-bandwidth-comparison.png]] *図3: 帯域幅と KDE の関係。左: アンダースムージング（$h=0.2$）で波打つ。中: 適切な $h=0.64$。右: オーバースムージング（$h=2$）で特徴が消失する。* ## 信頼区間と信頼帯 KDE の密度推定値に対する信頼領域は、局所的な被覆を保証する**信頼区間**（confidence interval）と全域的な同時被覆を保証する**信頼帯**（confidence band）に大別される。 ### 信頼区間の構成法 3つの方法が比較されている: 1. **プラグイン法**: 漸近分散に KDE の値を代入して $\hat{p}_n(x) \pm z_{1-\alpha/2} \sqrt{\mu_K \hat{p}_n(x)/(nh^d)}$ を構成する 2. **ブートストラップ+プラグイン法**: ブートストラップで分散を推定してプラグインする 3. **ブートストラップ法**: 完全にブートストラップに基づき、漸近正規性を仮定しない 3手法の信頼区間は実質的にほぼ同一の結果を与える。ただしいずれもバイアスを無視しているため、実際の被覆率は名目被覆率を下回る可能性がある。 ### 信頼帯の構成法信頼帯は一様誤差 $\sup_x |\hat{p}_n(x) - p(x)|$ の分布の近似に基づく: 1. **プラグイン法**: Bickel & Rosenblatt（1973）の極値分布への収束を利用するが、収束が非常に遅い 2. **ブートストラップ法**: 一様誤差がガウス過程の上限で正確に近似できるという理論（Chernozhukov+ 2014）に基づく。実用上はこちらが推奨される ![[fig5-confidence-bands.png]] *図5: ブートストラップによる 95% 信頼帯。左: バイアス未補正の信頼帯（被覆率不足の可能性）。右: バイアス補正済み KDE による信頼帯（被覆率保証あり、ただし幅が広い）。* ### バイアスの取り扱い信頼領域構成における本質的課題はバイアスである。3つの戦略が提示される: 1. **バイアスの無視**: 推論対象を平滑化密度 $p_h(x) = E[\hat{p}_n(x)]$ に切り替える。幾何学的・位相的特徴の推論では $p_h$ の構造が $p$ のそれを良く代表するため合理的である 2. **アンダースムージング**: $h^2 = o(1/\sqrt{nh^d})$ となるよう帯域幅を最適値より小さくとり、バイアスを確率的変動に対して無視可能にする。ただし信頼帯の幅が最適より広がる 3. **バイアス補正（オーバースムージング）**: $\nabla^2 p(x)$ を推定してバイアスを明示的に除去する。バイアス補正済み KDE $\tilde{p}_n(x) = \hat{p}_n(x) - \frac{h^2}{2}\sigma_K^2 \nabla^2 \hat{p}_b(x)$ を用い、最適帯域幅の下でも漸近的に妥当な信頼帯を構成できる（Chen, 2017） ![[fig6-debiased-confidence-band.png]] *図6: バイアス補正済み KDE のブートストラップによる信頼帯構成アルゴリズム（Chen, 2017）。最適帯域幅と両立する漸近的に妥当な信頼帯を出力する。* ## 幾何学的・位相的特徴 KDE は密度関数そのものだけでなく、密度に関連する幾何学的・位相的構造の推定にも利用される。密度の勾配 $g(x) = \nabla p(x)$ とヘッセ行列 $H(x) = \nabla\nabla p(x)$ が鍵となる。 ### 局所モードとモードクラスタリング局所モード $M = \{x: g(x) = 0, \lambda_1(x) < 0\}$ は密度が局所的に最大化される点の集合である。KDE のプラグイン推定量 $\hat{M}$ は一致推定量であり、ミーンシフトアルゴリズム（Fukunaga & Hostetler, 1975）で数値計算できる。局所モードに基づくクラスタリング（モードクラスタリング）は、勾配フローによりデータ点をクラスタに分割する。 ### レベルセットレベル $\lambda$ に対する密度レベルセット $L_\lambda = \{x: p(x) \geq \lambda\}$ の推定量は $\hat{L}_\lambda = \{x: \hat{p}_n(x) \geq \lambda\}$ である。ブートストラップに基づく信頼集合の構成法が提案されている（Mammen & Polonik, 2013; Chen+ 2015c）。 ### リッジ密度リッジ $R = \{x: V(x)V(x)^T g(x) = 0, \lambda_2(x) < 0\}$ は、第2固有ベクトル以降が張る部分空間における局所モードの集合である。SCMS（subspace-constrained mean shift）アルゴリズムで推定できる。 ### Morse-Smale 複体勾配上昇フローと勾配下降フローの到達先に基づくサポートの分割。KDE の Morse-Smale 複体は母集団のそれに一致収束する（Arias-Castro+ 2016; Chen+ 2015d）。多変量密度関数の可視化ツールとしても有用である。 ### クラスターツリークラスターツリー（密度ツリー）は、レベルセット $L_\lambda$ のレベル $\lambda$ を変化させたときの連結成分の生成・消滅をツリー構造で要約する。常に2次元平面に描画可能なため、多変量密度の可視化に適している。KDE に基づく推定量の収束が証明されている（Balakrishnan+ 2013; Chaudhuri+ 2014; Chen, 2016）。 ### パーシステント図パーシステント図はクラスターツリーの拡張であり、連結成分だけでなくループやボイドといった高次の位相的構造も要約する。KDE の一様収束と安定性定理（Cohen-Steiner+ 2007）から推定量の収束が保証される。ブートストラップによる信頼集合の構成法がある（Fasy+ 2014）。 ![[fig7-geometric-features.png]] *図7: KDE による幾何学的特徴の推定。左: 局所モード（黒十字）とモードクラスタリング。右: 密度等高線（青）、局所モード（黒十字）、密度レベルセット（ピンク領域）。* ![[fig8-topological-features.png]] *図8: KDE による位相的特徴の推定。左: クラスターツリー。4枚の葉が4個の高密度局所モードに対応する。右: パーシステント図。上部の4点が4個のパーシステントな位相的特徴を示す。* ## CDF 推定と ROC 曲線 ### CDF 推定 KDE を積分して得られる $\hat{F}_n(x) = \int_{-\infty}^{x} \hat{p}_n(y) dy$ は CDF の平滑化推定量であり、最適帯域幅 $h^* \asymp n^{-1/3}$ の下で経験 CDF と同等の $O_P(1/\sqrt{n})$ の誤差レートを達成する。$h = O(n^{-1/4})$ であれば平方根レートが得られる。 ### ROC 曲線健常群と疾患群の2標本から、KDE による CDF 推定を用いて平滑化 ROC 曲線推定量を構成できる。ブートストラップによる信頼帯の理論的妥当性が Hall+ 2004 や Horváth+ 2008 で証明されている。 ## 新規性 1. KDE の基本理論から近年の幾何学的・位相的推定までを一貫した枠組みで概観する初のチュートリアルである 2. バイアス補正済み KDE のブートストラップによる信頼帯構成（Chen, 2017）を導入し、最適帯域幅選択と漸近的妥当性を両立させた 3. 密度関数の幾何学的・位相的特徴（局所モード、レベルセット、リッジ、Morse-Smale 複体、クラスターツリー、パーシステント図）の推定を統計的推論の文脈で体系化した ## 強み / 弱点・課題 ### 強み - KDE の統計的性質から応用まで、必要な数学的背景を維持しつつ読みやすいチュートリアルを構成している - バイアス処理の3戦略（無視・アンダースムージング・バイアス補正）の理論的根拠と実用上のトレードオフを明確に対比している - R 実装コードの付録により再現可能性を担保している ### 弱点・課題 - **次元の呪い**: 最適収束レート $O(n^{-2/(d+4)})$ は次元 $d$ が大きいと極めて遅く、この制約に対する実践的な解決策は深く論じられていない - **幾何学的・位相的構造の帯域幅選択**: MISE に対応するセット推定量向けの誤差指標の一般化は未解決である - **カーネルスムージングの他関数への拡張**: 回帰関数・ハザード関数・生存関数に対する信頼帯の構成は未解決問題として挙げられている - 多次元データの可視化手法の選択指針が未確立である ## 出典 - [[@2017__arXiv__A Tutorial on Kernel Density Estimation and Recent Advances]]（本ページ）