> [!abstract] 概要(abstract の日本語訳)
> エネルギー距離はランダムベクトルの分布間の統計的距離であり、分布の等値性を特徴付ける。「エネルギー」という名称はニュートンの重力ポテンシャルエネルギーに由来し、統計的観測値間のポテンシャルエネルギーという概念と優雅な関係を持つ。エネルギー統計は計量空間における統計的観測値間の距離の関数である。したがって、観測値が関数のような複雑な対象であっても、その実数値の非負距離を推測に用いることができる。エネルギー統計の理論と応用を議論し、例示する。最後に、適合度検定のポテンシャルエネルギーと運動エネルギーという概念を探求する。
## 論文情報
- **タイトル**: Energy statistics: A class of statistics based on distances
- **著者**: Gábor J. Székely(NSF / ハンガリー科学アカデミー Rényi 数学研究所)、Maria L. Rizzo(Bowling Green State University)
- **媒体**: Journal of Statistical Planning and Inference 143 (2013) 1249–1272
- **DOI**: 10.1016/j.jspi.2013.03.018
- **受理**: 2013年3月4日 / **オンライン公開**: 2013年3月20日
- **R パッケージ**: `energy`(General Public License、CRAN で公開)
## 概要
エネルギー統計(E統計量)は統計的観測値間のユークリッド距離の関数として定義される U統計量・V統計量の族である。ニュートンの重力ポテンシャルエネルギーの考え方から着想を得ており、統計的ヌル仮説が真であるときに限りゼロになる「統計的ポテンシャルエネルギー」として観測値間の依存関係を捉える。本論文は適合度検定・等分布検定・独立性検定・クラスタリングに至る広範な応用をレビューとして体系化したものである。
## 問題設定
- 古典的な L2 距離(クラメール距離など)は回転不変でなく、多変量データへの拡張が困難。
- ピアソン相関は線形・単調な依存性しか捉えられず、ゼロ相関は独立性を意味しない。
- U統計量・V統計量として表現される統計量で、(1) 分布の等値性の検定、(2) 独立性の検定、(3) クラスタリングを一貫した枠組みで統一したい。
## 提案手法
### エネルギー距離の定義
**Definition 1.** $d$ 次元独立確率変数 $X$ と $Y$($E|X|_d, E|Y|_d < \infty$)間のエネルギー距離:
$\mathcal{E}(X, Y) = 2E|X-Y|_d - E|X-X'|_d - E|Y-Y'|_d \geq 0$
ここで $X'$, $Y'$ はそれぞれ $X$, $Y$ の独立同分布コピー。等号は $X \overset{d}{=} Y$ のときに限る。
**Proposition 1.** 特性関数 $\hat{f}$, $\hat{g}$ を持つ独立な $d$ 次元確率変数 $X$, $Y$ に対して:
$\mathcal{E}(X,Y) = \frac{1}{c_d} \int_{\mathbb{R}^d} \frac{|\hat{f}(t) - \hat{g}(t)|^2}{|t|_d^{d+1}} dt, \quad c_d = \frac{\pi^{(d+1)/2}}{\Gamma\left(\frac{d+1}{2}\right)}$
すなわちエネルギー距離は重み関数 $w(t) = |t|^{-(d+1)}$ を持つ特性関数間の重み付き L2 距離と同値。このことから、回転不変かつスケール同変な重み付き L2 距離はエネルギー距離に**一意**に定まる(§3)。
### 一般化エネルギー距離(重い裾分布への対応)
**Proposition 2.** $0 < \alpha \leq 2$ に対して:
$\mathcal{E}^{(\alpha)}(X,Y) = 2E|X-Y|^\alpha - E|X-X'|^\alpha - E|Y-Y'|^\alpha = \frac{1}{C(d,\alpha)} \int \frac{|\hat{f}(t)-\hat{g}(t)|^2}{|t|^{d+\alpha}} dt$
$0 < \alpha < 2$ ではゼロ当量が等分布の必要十分条件になるが、$\alpha = 2$ では平均の一致でゼロになり等分布の特徴付けにならない。
### 適合度検定(1標本エネルギー統計量)
帰無仮説 $H_0: F = F_0$ に対する統計量:
$E_n(X, F_0) = \frac{2}{n} \sum_{i=1}^n E|x_i - X| - E|X-X'| - \frac{1}{n^2}\sum_{\ell,m} |x_\ell - x_m|$
$nE_n$ は帰無仮説下で非縮退極限分布を持ち、対立仮説下では $\infty$ に発散する一致検定。多変量正規性の検定(§4.3)では HZ 検定・Mardia の歪度・尖度検定よりも強い検出力を示す(Figure 2 参照)。
**Figure 1: 適合度統計量のサンプリング分布(正規性検定、$n=30$)**
![[_attachments/Szkely-and-Rizzo-2013---Energy-statistics---A-class-of-statistics-based-on-distances/fig01-goodness-of-fit-sampling-dist.png]]
(Figure 1. (a) 帰無仮説下の標本分布:右裾が長い非対称形状で棄却域は上側。(b) 帰無仮説(実線)と正規混合対立(破線)の密度比較。臨界値 0.82(点線)を超えると棄却。標本サイズが増えると対立下の分布が右にシフトし検出力が向上する。Source: Figure 1 in Székely and Rizzo 2013.)
**Figure 2: 多変量正規性検定の経験的検出力($d=5$、正規混合対立)**
![[_attachments/Szkely-and-Rizzo-2013---Energy-statistics---A-class-of-statistics-based-on-distances/fig02-multivariate-normality-power.png]]
(Figure 2. $0.9 N_5(0,I) + 0.1 N_5(2,I)$ 対立に対し $\alpha=5\%$ で 2000 回 Monte Carlo。エネルギー検定(E、実線■)は $n=25$ で 20%、$n=100$ で 90% の検出力を示し、HZ(□)・歪度(△)・尖度(▽)を全 $n$ で上回る。Source: Figure 2 in Székely and Rizzo 2013.)
### 多標本エネルギー統計量(等分布検定・DISCO・E-クラスタリング)
**2標本統計量**(Székely and Rizzo, 2004):
$\mathcal{E}_{n_1, n_2}(X,Y) = \frac{2}{n_1 n_2}\sum_{i,m}|X_i-Y_m| - \frac{1}{n_1^2}\sum_{i,j}|X_i-X_j| - \frac{1}{n_2^2}\sum_{\ell,m}|Y_\ell-Y_m|$
**距離成分(DISCO)**: 分散分析(ANOVA)の非パラメトリック拡張。全分散 $T_\alpha = S_\alpha + W_\alpha$(間分散 + 内分散)と分解でき、$0 < \alpha < 2$ では多標本等分布仮説 $H_0: F_1 = \cdots = F_K$ に対する一致検定となる($\alpha = 2$ は通常の ANOVA と一致、Figure 3 参照)。
**Figure 3: DISCO vs MANOVA の検出力比較(Gamma 分布 4 グループ、$n=30$ per group)**
![[_attachments/Szkely-and-Rizzo-2013---Energy-statistics---A-class-of-statistics-based-on-distances/fig03-disco-vs-manova-power.png]]
(Figure 3. (a) $p=10$ 固定、$\sigma$ を変化: DISCO(D、■)は $\sigma \geq 0.4$ 付近で MANOVA(Pillai●・Wilks▲)を大きく上回り、$\sigma=0.8$ で検出力 1 近傍に達する一方 MANOVA は 0.4–0.6 程度。(b) $\sigma=0.4$ 固定、次元 $p$ を変化: 次元増大とともに DISCO の優位性が拡大。$p>20$ で MANOVA は検出力 0.2 以下に留まるが DISCO は 1 に漸近。Source: Figure 3 in Székely and Rizzo 2013.)
**E-クラスタリング**: Ward 最小分散法を一般化した階層クラスタリング。更新式は Ward 法と同型だが、エネルギー距離を採用することで、中心が等しいが分布が異なるクラスタも分離できる。
### 距離共分散・距離相関(独立性の検定)
**Definition 3.** 距離共分散(dCov):
$\mathcal{V}^2(X,Y) = \frac{1}{c_p c_q} \int_{\mathbb{R}^{p+q}} \frac{|\hat{f}_{X,Y}(t,s) - \hat{f}_X(t)\hat{f}_Y(s)|^2}{|t|_p^{p+1}|s|_q^{q+1}} dt\, ds$
これは同値の計算式:
$\mathcal{V}^2(X,Y) = E|X-X'|_p|Y-Y'|_q + E|X-X'|_p \cdot E|Y-Y''|_q - 2E|X-X'|_p|Y-Y''|_q$
$\mathcal{V}(X,Y) = 0$ $\Leftrightarrow$ $X \perp Y$(任意次元で成立)。
**標本距離共分散の計算手順(§7, (7.10)-(7.11))**:
1. 距離行列 $a_{k\ell} = |X_k - X_\ell|$ と $b_{k\ell} = |Y_k - Y_\ell|$ を計算
2. 二重センタリング: $A_{k\ell} = a_{k\ell} - \bar{a}_{k\cdot} - \bar{a}_{\cdot\ell} + \bar{a}_{\cdot\cdot}$($B_{k\ell}$ も同様)
3. $\mathcal{V}_n^2(X,Y) = \frac{1}{n^2}\sum_{k,\ell} A_{k\ell} B_{k\ell}$
**Definition 4.** 距離相関(dCor):
$\mathcal{R}^2(X,Y) = \frac{\mathcal{V}^2(X,Y)}{\sqrt{\mathcal{V}^2(X)\mathcal{V}^2(Y)}}, \quad 0 \leq \mathcal{R} \leq 1$
性質: $\mathcal{R}(X,Y) \leq |\rho(X,Y)|$($\rho$ はピアソン相関)、等号は $\rho = 0$ または $\pm 1$ のとき。
二変量正規分布では $\mathcal{R}^2(X,Y)$ は $\rho$ の決定論的関数として明示的に表現できる(Székely et al., 2007, Theorem 7)。
**Figure 4: dCov 独立性検定の検出力比較(Gumbel 二変量指数分布、$\theta=0.5$)**
![[_attachments/Szkely-and-Rizzo-2013---Energy-statistics---A-class-of-statistics-based-on-distances/fig04-dcov-independence-power.png]]
(Figure 4. (a) $H_0$: $X,Y$ 独立の検定。dCov(実線)・Pearson(破線)・rank-dCov(点線)・Spearman(一点鎖線)は単調依存の検出で同等の検出力を示す。(b) 線形モデル残差 $\hat\varepsilon$ に dCov を適用した「非線形成分の独立性検定」。dCov(実線)のみ $n \geq 50$ で検出力が急上昇し $n=300$ で 1 に漸近。Pearson・Spearman は残差に対してゼロ検出力(水平線)。Source: Figure 4 in Székely and Rizzo 2013.)
### ブラウン共分散との同値性
**Theorem 1(i).** 二側一次元ブラウン運動 $W$(共分散 $|s|+|t|-|s-t|$)に対する条件付き共分散:
$\mathcal{W}^2(X,Y) = E|X-X'||Y-Y'| + E|X-X'|E|Y-Y'| - 2E|X-X'||Y-Y''|$
これはエネルギー距離の定義と一致し、$\mathcal{W}(X,Y) = \mathcal{V}(X,Y)$(任意次元)。すなわち、**距離共分散 = ブラウン共分散**であることが証明されている(Székely and Rizzo, 2009, Theorem 8)。
フラクショナル・ブラウン運動(ハースト指数 $H$)による一般化では、$\alpha = 2H$ の $\alpha$-距離共分散に対応する。
### 統計的ポテンシャルエネルギーと運動エネルギー(§8)
適合度検定の V統計量 $E_n$ のカーネルは正半定値の縮退核(degenerate kernel)であり、帰無仮説下の極限分布は固有値問題(8.3)の解を係数とする二次形式:
$Q = \sum_{k=1}^\infty \lambda_k Z_k^2$
の分布になる。ここで $\lambda_k$ を**統計的ポテンシャルエネルギー準位**と呼ぶ。
一次元ではこの固有値問題はシュレーディンガー方程式の純粋運動エネルギー項 $-\frac{1}{2f}\psi'' = \mu\psi$ と一致し、$\lambda_k = 1/\mu_k$(ポテンシャルエネルギー準位は運動エネルギー準位の逆数)という優雅な対応が成立する。
## 新規性
| 既存手法の課題 | 本研究の解決方法 |
|---|---|
| クラメール・フォン・ミーゼス距離は回転不変でなく多変量拡張が困難 | エネルギー距離は $\alpha = 1$ で自然な回転不変・スケール同変拡張を与える |
| ピアソン相関は線形依存のみを捉え、$\rho=0$ は独立を意味しない | dCov は特性関数の差に基づき全タイプの依存性を特徴付け、ゼロ $\Leftrightarrow$ 独立が成立 |
| Ward 法は平均が等しいクラスタを分離できない($\alpha=2$ の限界) | $0 < \alpha < 2$ の E-クラスタリングは平均が等しくとも分布が異なるクラスタを分離可能 |
| 多標本分散分析は分布の等値性を検定できない | DISCO は ANOVA の非パラメトリック拡張で、分布の等値性に対する一致検定となる |
## 実験設定
- 実験は全て Monte Carlo シミュレーション(2000〜10000 複製)
- 5次元正規混合($0.9 N_5(0,I) + 0.1 N_5(2,I)$)に対する多変量正規性検定の比較(Figure 2)
- Gamma 分布4グループに対する DISCO vs MANOVA 比較、次元 $p=1$ 〜 100(Figure 3)
- Gumbel 二変量指数分布($\theta=0.5$)に対する独立性検定比較、$n=10$ 〜 300(Figure 4)
- R パッケージ `energy`(Rizzo and Székely, 2011)で実装・公開
## 実験結果
- 多変量正規性検定($d=5$): エネルギー検定が HZ・Mardia 歪度・尖度検定を全標本サイズで上回り、$n=100$ で検出力 85% 超(Figure 2)
- DISCO 対 MANOVA(Gamma 分布、$p=10$): DISCO の検出力が $s$ が増大するにつれ MANOVA を大きく上回る(Figure 3(a))。次元 $p$ が増大するほどその差が拡大(Figure 3(b))
- 非線形依存(Gumbel 二変量指数、$\theta=0.5$): dCov 検定はピアソン・スピアマン検定と同等の検出力を持つ。線形モデル残差への適用で非線形成分を分離・検出できる(Figure 4(b))
## 考察
- エネルギー距離の一意性(回転不変+スケール同変 $\Rightarrow$ 重み関数が一意)は、エネルギー統計の選択を公理的に正当化する
- $\alpha=2$ の特殊性: ゼロ当量が等分布の特徴付けにならず、Ward 法やピアソン相関に退化する。「$\alpha=2$ の限界 = 線形統計量の限界」という重要な視点
- ブラウン共分散との同値性は、dCov の確率過程論的な土台を与え、分数ブラウン運動との接続を通じて $\alpha$-距離共分散への一般化を動機付ける
- 定常エルゴード過程への適用可能性: iid 仮定は不要で、強定常エルゴード観測列であればエネルギー検定が適用できる(§7.4)
## 強み / 弱点・課題
**強み**:
- 適合度・等分布・独立性・クラスタリングを一つの枠組み(エネルギー統計)で統一
- 任意次元・任意次元 ($d > n$ も可)で適用でき、多変量問題への拡張が自然
- ゼロとなる必要十分条件が明確(等分布 or 独立)で、解釈が直感的
- $O(n^2)$ の計算量で実装可能
**弱点・課題**:
- 帰無分布が既知の分布に従わず、一般には置換検定またはパラメトリック・ブートストラップが必要
- 部分距離相関(partial distance correlation)の定義と理論は「forthcoming paper」として残されている
- $\alpha=2$ 以外の $\alpha$ の選択が検出力に有意な差をもたらさないとされるが、その理論的な説明は不十分
## 関連
- [[エネルギー統計]] — 本論文が定式化する統計量族の概念ページ
- [[距離相関]] — dCov / dCor の概念ページ
- [[Gábor J. Székely]] — 第一著者
- [[Maria L. Rizzo]] — 第二著者