# エネルギー統計 ## 定義 エネルギー統計(E統計量; energy statistics)は、計量空間における統計的観測値間の距離の関数として定義される U統計量・V統計量の族である。ニュートンの重力ポテンシャルエネルギーの概念に着想を得ており、統計的ヌル仮説が真である場合にのみゼロとなる「統計的ポテンシャルエネルギー」として観測値間の関係を捉える。(Source: [[@2013__JSPI__Energy statistics - A class of statistics based on distances]]) 核心となる概念は**エネルギー距離**で、独立な $d$ 次元確率変数 $X$, $Y$($E|X|, E|Y| < \infty$)に対して: $\mathcal{E}(X, Y) = 2E|X-Y| - E|X-X'| - E|Y-Y'| \geq 0$ $X'$, $Y'$ はそれぞれの独立コピー。等号 $\mathcal{E}(X,Y) = 0$ は $X \overset{d}{=} Y$ の必要十分条件。この量は特性関数間の重み付き L2 距離(重み $|t|^{-(d+1)}$)と同値であり、回転不変かつスケール同変という自然な要件を課すとこの重み関数に一意に定まる。 ## 主な応用 ### 1. 適合度検定(1標本) $H_0: F = F_0$ に対する統計量 $nE_n$ は帰無仮説下で有限極限分布を持ち、対立仮説下で $\infty$ に発散する一致検定。多変量正規性・Pareto・安定分布など任意のパラメトリック族に適用できる。 ### 2. 等分布検定(多標本) $H_0: F_1 = \cdots = F_K$ に対する DISCO(距離成分)検定は ANOVA の非パラメトリック拡張で、分散 $T_\alpha = S_\alpha + W_\alpha$ と全分散を分解する。$0 < \alpha < 2$ で一致検定。$\alpha = 2$ は通常の ANOVA に退化。 ### 3. 独立性の検定(距離共分散) 詳細は [[距離相関]] を参照。 ### 4. E-クラスタリング Ward 最小分散法の一般化。エネルギー距離を用いることで、**中心が等しくとも分布が異なるクラスタ**を分離できる(Ward 法 $\alpha=2$ の限界を克服)。 ### 5. 変化点検出 エネルギー距離に基づく2標本検定を逐次適用することで時系列の変化点解析が可能(Kim et al., 2009; Matteson and James, 2012)。 ## 統計的ポテンシャルエネルギーと運動エネルギー(§8) 適合度検定 $E_n$ のカーネルの固有値 $\{\lambda_k\}$(Hilbert–Schmidt 固有値方程式の解)を**統計的ポテンシャルエネルギー準位**と呼ぶ。帰無分布は $Q = \sum \lambda_k Z_k^2$($Z_k$ は iid 標準正規)。 1次元では固有値問題が純粋運動エネルギー項のシュレーディンガー方程式 $-\frac{1}{2f}\psi'' = \mu\psi$ と同型になり、$\lambda_k = 1/\mu_k$(統計的ポテンシャルエネルギー準位は統計的運動エネルギー準位の逆数)という対応が成立する。 ## 横断的知見 - 現時点では [[@2013__JSPI__Energy statistics - A class of statistics based on distances]] のみを ingest しているため、複数ソースの突き合わせによる横断的知見は未蓄積。 ## 未解決の問い - カーネル法(MMD: Maximum Mean Discrepancy)との関係は?エネルギー距離は RKHS 上の MMD の特殊例として解釈できるか?(エネルギー距離 = MMD with energy kernel は知られているが、wiki 内での裏取りが必要) - $\alpha$ の選択が検出力に与える影響の体系的な分析が論文内では「有意差なし」とされているが、重い裾分布における最適 $\alpha$ の理論的な根拠は? - 部分距離相関(partial distance correlation)の定義と理論はどこで展開されたか? - 高次元($p, q \gg n$)における dCov の統計的性質と修正推定量($U_n^2$)の利点は? - AIOps・時系列異常検知における応用:エネルギー検定は多変量時系列のセグメント比較に使われているか? ## 関連 - [[距離相関]] — dCov / dCor の詳細 - [[統計的機械学習]] — 関連する学習理論の枠組み - [[@2013__JSPI__Energy statistics - A class of statistics based on distances]] — 定義・理論の一次出典 - [[Gábor J. Székely]] — 提唱者 - [[Maria L. Rizzo]] — 共同提唱者 ## 出典 - Székely, G.J. and Rizzo, M.L. (2013). Energy statistics: A class of statistics based on distances. *Journal of Statistical Planning and Inference*, 143, 1249–1272. DOI: 10.1016/j.jspi.2013.03.018