PACE - yuuk1's Digital Garden

# PACE [[Hewlett Packard Labs]] と [[Oak Ridge National Laboratory]] が ISAV 2025 で提案した、データセンターの多変量テレメトリから因果構造を取り出す機械学習フレームワーク(Pattern and Causal Exploration)。(Source: [[@2025__ISAV__From Exploration to Explanation - ML-Driven Causal Discovery for Datacenter Reliability at Scale]]) 二段構えの手法: - **教師なしの相関クラスタリング**: Pearson 相関 + 階層クラスタリング(平均連結)で共変動するメトリクス・サブシステムをグループ化し、ラベルなしでサブシステム構造を抽出する。 - **教師ありのラグ考慮型 Granger 因果性**: 順序付きペア $X \to Y$ ごとに、$Y$ 単独の自己回帰とラグ付き $X$ で拡張した自己回帰を $F$ 検定で比較する。最大 12 ラグまで pairwise Granger 因果性検定を適用し、スコア $s = -\log_{10}(p)$ で有向の影響を測る(ラグ付き相互相関を補完的チェックに併用)。モジュール式パイプラインは **データ整備(3 ヶ月・5 分平均リサンプル・`_MAX` 等の安定指標を保持)→ パターン発見 → 因果推定 → グラフ合成・剪定(各ノード上位 k=2 の出力エッジ + 98 パーセンタイル、out-strength で外向き影響を測る)→ 可視化 → 検証(期待される先行関係の確認・感度分析)** の各段からなる。出力は物理プロセスと制御ロジックに整合する解釈可能な因果グラフ・隣接ヒートマップ・順位付きエッジリスト。主要な因果所見として、熱の操作変数(THX/EHX/CHW 系)→ 容量・吐出温度・流量、外気乾球温度 → CHW 還り温度・流量、電力は負荷に追従、容量 → バルブ位置の監督的フィードバックなどが、既知の物理プロセスと整合する形で得られる。評価は [[Oak Ridge National Laboratory]] の [[Summit]] スパコンの冷却インフラの 7 年分テレメトリ(Yokogawa SMARTDAC 収集)を用いる。さらに PACE をデジタルツイン([[DyTwin]])に組み込むことで、因果に基づく What-if(反実仮想シミュレーション・介入設計・レジリエンス試験・容量計画)推論への展開を構想する。**定量的な精度指標は報告せず、評価は物理整合性・エントロピー順位・感度分析という定性評価による**(6 ページのワークショップ短編)。 ## 関連 - ソース: [[@2025__ISAV__From Exploration to Explanation - ML-Driven Causal Discovery for Datacenter Reliability at Scale]] - 開発機関: [[Hewlett Packard Labs]] / [[Oak Ridge National Laboratory]] - 評価環境: [[Summit]] - 統合先(構想): [[DyTwin]] - 概念: [[根本原因分析]] / [[テレメトリ]] / [[異常検知]]