## Memo ## Abstract 多大な信頼性向上努力にもかかわらず、大規模なクラウドサービスでは、サービスの可用性と顧客満足度に大きな影響を与える本番インシデントが避けられません。さらに悪いことに、多くの場合、1つのインシデントがカスケード効果によって下流の複数の障害につながり、依存する異なるサービス間で関連する複数のインシデントが発生します。多くの場合、オンコール・エンジニア(OCE)はこれらのインシデントを個別に調査するため、手作業による多大な労力が発生し、インシデントを解決するまでの全体的な時間が長くなってしまいます。そのため、効率的なインシデント・リンク・モデルを開発することは、関連するインシデントをクラスターにグループ化し、大規模な停電を迅速に解決してオンコールの疲労を軽減するために最も重要です。既存のインシデントリンクメソッドは、ほとんどがインシデントのテキスト情報とコンテキスト情報(タイトル、説明、重大度、影響を受けたコンポーネントなど)を活用しているため、サービス間の相互依存関係を活用することができない。本論文では、同じサービスからだけでなく、異なるサービスやワークロードからのインシデントリンクの精度と網羅性を向上させるために、テキスト情報とサービス依存グラフ情報の両方を活用する依存関係を考慮したインシデントリンク(DiLink)フレームワークを提案する。さらに、直交プロクラステスを用いて、マルチモーダル(すなわち、テキストとグラフ)データの埋め込みを整列させる新しい方法を提案する。マイクロソフト社の5つのワークロードから実世界のインシデントを用いた広範な実験結果は、我々のアライメント手法が0.96のF1スコア(現在の最先端手法と比較して14%の利得)を持つことを実証している。我々はまた、インシデント管理を改善し、手作業の労力を削減するOCEを継続的にサポートするために、これらの5つのワークロードから610のサービス全体にこのソリューションを導入しているところである。