# 距離相関
## 定義
距離共分散(dCov; distance covariance)は、任意次元のランダムベクトル $X \in \mathbb{R}^p$ と $Y \in \mathbb{R}^q$ の**あらゆるタイプの依存性**を測定する統計量である。(Source: [[@2013__JSPI__Energy statistics - A class of statistics based on distances]])
$\mathcal{V}^2(X,Y) = \frac{1}{c_p c_q} \int_{\mathbb{R}^{p+q}} \frac{|\hat{f}_{X,Y}(t,s) - \hat{f}_X(t)\hat{f}_Y(s)|^2}{|t|^{p+1}|s|^{q+1}} dt\, ds$
ここで $c_p = \pi^{(p+1)/2} / \Gamma\bigl(\frac{p+1}{2}\bigr)$。同値の表現:
$\mathcal{V}^2(X,Y) = E|X-X'||Y-Y'| + E|X-X'| \cdot E|Y-Y''| - 2E|X-X'||Y-Y''|$
ただし $(X,Y), (X',Y'), (X'',Y'')$ は独立同分布。
**根本的性質**: $\mathcal{V}(X,Y) = 0$ $\Leftrightarrow$ $X \perp Y$(任意次元で成立)。これはピアソン相関が成立させられない命題。
**距離相関(dCor)**:
$\mathcal{R}^2(X,Y) = \frac{\mathcal{V}^2(X,Y)}{\sqrt{\mathcal{V}^2(X)\mathcal{V}^2(Y)}}, \quad 0 \leq \mathcal{R} \leq 1$
## 標本計算手順
1. 距離行列 $a_{k\ell} = |X_k - X_\ell|_p$、$b_{k\ell} = |Y_k - Y_\ell|_q$ を計算($O(n^2)$)
2. 二重センタリング: $A_{k\ell} = a_{k\ell} - \bar{a}_{k\cdot} - \bar{a}_{\cdot\ell} + \bar{a}_{\cdot\cdot}$($B_{k\ell}$ も同様)
3. $\mathcal{V}_n^2(X,Y) = \frac{1}{n^2}\sum_{k,\ell=1}^n A_{k\ell} B_{k\ell}$
計算量は $O(n^2)$ で、次元 $p, q$ には依存しない($p \gg n$ でも適用可)。
## 主要な性質
- $0 \leq \mathcal{R}_n(X,Y) \leq 1$(ピアソン相関は $[-1,1]$、dCor は $[0,1]$)
- $\mathcal{R}(X,Y) \leq |\rho(X,Y)|$(等号は $\rho = 0$ または $\pm 1$)
- 二変量正規分布では $\mathcal{R}^2$ は $\rho$ の決定論的関数として明示的に表現可能
- スケール同変・剛体運動不変
- $\mathcal{R}_n = 1$ $\Rightarrow$ $Y = a + bXC$(アフィン線形関係)
## ブラウン共分散との同値性
二側一次元ブラウン運動 $W$ による条件付き共分散の二乗:
$\mathcal{W}^2(X,Y) = E[X_W X'_W Y_W Y'_W]$
が距離共分散 $\mathcal{V}^2(X,Y)$ と任意次元で一致する(Székely and Rizzo, 2009, Theorem 8)。フラクショナル・ブラウン運動(ハースト指数 $H$)を用いると $\alpha = 2H$ の $\alpha$-距離共分散に拡張できる。
## 非線形依存性の検出と残差分析
dCov の最大の実用的優位性は**非線形・非単調な依存性の検出**にある。
線形成分と非線形成分の分離手順:
1. 線形モデル $Y = X\beta + \varepsilon$ を OLS で当てはめ残差 $\hat\varepsilon$ を取得
2. dCov 検定を $(X, \hat\varepsilon)$ に適用 → 非線形依存成分のみを検定
Gumbel 二変量指数分布($\theta=0.5$)の実験で、残差への dCov 適用は非線形成分に対して一致検定であることが Monte Carlo で確認されている。
## 独立成分分析・特徴選択への応用
- Matteson and Tsay (2011): 独立成分分析(ICA)に dCov 統計量を適用
- Li et al. (2012): 超高次元データの特徴選択(feature screening)への応用
## 横断的知見
- 現時点では [[@2013__JSPI__Energy statistics - A class of statistics based on distances]] のみを ingest しているため、複数ソースの突き合わせによる横断的知見は未蓄積。
## 未解決の問い
- カーネル独立性検定(HSIC; Hilbert–Schmidt Independence Criterion)との比較:dCov と HSIC は同型の枠組みで記述できるか?エネルギーカーネルは RKHS カーネルの特殊例か?
- 高次元での修正推定量 $U_n^2$(不偏推定量)と $t$ 検定(Székely and Rizzo, 2013)の詳細。偏距離相関(partial dCor)の定義は?
- 時系列データへの応用:自己距離相関(auto-dCor)の定義と有効性(Matteson and Tsay, 2011; Zhou, 2012 を未 ingest)
- AIOps・監視システムでの応用:マイクロサービス間依存関係のグラフ推定に dCov が使われているか?
- `$\alpha$-distance correlation`($\alpha \neq 1$)を使うべき状況の実践的ガイドラインは?
## 関連
- [[エネルギー統計]] — dCov は E統計量の一つ
- [[統計的機械学習]] — 独立性尺度の機械学習への応用
- [[トラフィック相関分析]] — 関連する相関解析の応用
- [[@2013__JSPI__Energy statistics - A class of statistics based on distances]] — 定義・理論の一次出典
- [[Gábor J. Székely]] — 提唱者
- [[Maria L. Rizzo]] — 共同提唱者
## 出典
- Székely, G.J., Rizzo, M.L., and Bakirov, N.K. (2007). Measuring and testing dependence by correlation of distances. *Annals of Statistics*, 35, 2769–2794.
- Székely, G.J. and Rizzo, M.L. (2009). Brownian distance covariance. *Annals of Applied Statistics*, 3, 1236–1265.
- Székely, G.J. and Rizzo, M.L. (2013). Energy statistics: A class of statistics based on distances. *JSPI*, 143, 1249–1272.