## Memo ## Abstract この研究は、ハイパースケールデータセンターにおけるホスト障害運用の顕著な事実と課題を示している。ホストの事故は、広範な側面をカバーする数百の異なるホストレベルのメトリクスを含む可能性がある。ホスト内部の障害メカニズムは、直接的および間接的な相関関係を通じて、これらの異種メトリクスを結びつけており、これらの絡み合った指標から伝播手順と根本原因を選別することを極めて困難にしている。ホスト内部の障害メカニズムを深く理解するために、私たちはHEAL(新しいホストメトリクス解析ツールキット)を開発しました。HEALは、時系列解析と確率変数解析の長所を組み合わせることで、スパースな異種ホストメトリクスの動的因果関係を相乗的に発見する。また、因果関係の非対称性と過去の知識から、因果関係の方向性のヒントを積極的に抽出することができる。これらのブレークスルーを組み合わせることで、HEALは望ましくない入力に対しても正確な結果を出すことができる。我々の実稼働環境における広範な実験により、HEALはSOTAベースラインよりも有意に優れた結果精度と全プロセスの解釈可能性を提供することが確認された。これらの利点により、HEALは私たちのデータセンターと世界的な製品オペレーションに成功し、他の多くのワークフローに印象的に貢献しています。