## Memo - [[2023__POMACS__HEAL - Performance Troubleshooting Deep inside Data Center Hosts]]の後継論文? ## Memo with LLM ## Abstract この研究は、ハイパースケールデータセンターにおけるホスト障害運用の顕著な事実と課題を示している。ホストのインシデントには、何百もの異なるホストレベルのメトリクスが関与する可能性がある。ホスト内部の障害メカニズムは、直接的および間接的な相関関係を通じてこれらの異種メトリクスを結びつけ、これらの絡み合った指標から伝播手順と根本原因を選別することを極めて困難にしている。ホスト内部の障害メカニズムを深く理解するために、私たちはHEAL(新しいホストメトリクス解析ツールキット)を開発しました。HEALは、時系列解析と確率変数解析の長所を組み合わせることで、スパースな異種ホストメトリクスの動的因果関係を発見する。また、因果関係の非対称性と過去の知識から因果関係の方向性のヒントを抽出し、最終的にHEALが望ましくない入力に対して正確な結果を出すのを助ける。我々の実稼働環境における評価では、HEALはSOTAベースラインよりも有意に優れた結果精度と全過程の解釈可能性を提供することが確認されている。このような利点により、HEALは我々のデータセンターと世界的な製品オペレーションに成功し、他の多くのワークフローにも印象的に貢献しています。