## Memo ![[Pasted image 20240829164822.png|500]] ## Memo with LLM ## Abstract 何百万ものサービスホストを含むハイパースケールデータセンターの運用と保守は、インターネット業界のトップ企業にとって非常に複雑なタスクです。 絶え間なく発生するシステム障害は、再発を防ぐために根本的な原因を診断するために、オペレータがパフォーマンスメトリクスを閲覧するのに数え切れないほどの時間を費やしています。 多くの最先端の(SOTA)手法は、異常なメトリクス間の因果関係を構築するために時系列の因果関係を発見することを使用していますが、それらは同種のサービスレベルのパフォーマンスメトリクスにのみ焦点を当てており、異種のホストレベルのメトリクスに関する有用な洞察を得ることができません。 この課題に対処するため、本研究では、トラブルシューティングにおける人的労力を削減するために、様々な観点から診断的洞察を提供する、解釈可能な深層因果ホスト障害診断フレームワークであるFaultInsightを提示する。 実運用環境から収集した数十件のインシデントを使用して、FaultInsightを評価しました。 FaultInsightは、我々のインシデント・データセットにおいて、SOTAベースラインよりも根本原因の特定精度が著しく優れています。 また、実際の本番システムでの展開性という点でも卓越した優位性を示しています。 私たちのエンジニアは、インシデントを多角的に解釈し、障害の背後にあるメカニズムを迅速に理解するのに役立つFaultInsightの能力に深く感銘を受けています。