## Memo ## Memo with LLM ## Abstract ハイパースケールのウェブサービス・インフラはますます複雑化し、さまざまな脅威に直面しているため、より高度な自動運用・診断ソリューションの需要が高まっています。 既存の異常の根本原因を特定するアプローチは、サービスが配置されている下位レベルのリソースまで掘り下げることなく、サービスレベルのコンポーネントに焦点を当てることが多く、きめ細かな障害修正対策の実装を妨げています。 本論文では、グローバル診断と呼ばれる困難なタスクを紹介し、サービスレベルとホストレベルの両方の根本原因分析シナリオに適用可能なG-Causeと呼ばれる技術を提案することでこれに対処する。 G-Causeは、モニタリングメトリクスの周波数領域と時間領域の特性に基づいて高度に適応的な診断フレームワークを構築し、最小限のパラメータ調整でアプリからホストまでのグローバル診断要件を処理できるようにします。 アプリからマイクロサービスへの同種のメトリクス診断と、様々なホストリソースに対する異種のメトリクス診断です。 その結果、G-Causeは強力な解釈可能性を提供しながら、最先端の診断アルゴリズムを凌駕することが実証された。 我々のアプローチは、オペレーターが異常伝播の中核メカニズムを理解し、管理戦略をより効果的に調整するのに役立ちます。 G-Causeはこのような強みを生かし、グローバルな製品オペレーションを成功させ、また他の多くのワークフローにおいても素晴らしい貢献をしています。