## Memo - [[ARISE Lab]]より ## Abstract オンラインサービスシステムが複雑化・大容量化する中、サービスインシデントをどのように管理するかは、企業の収益やユーザーの信頼に大きな影響を与えます。クラウドの障害は、カスケード効果により、依存するサービスやデバイスから圧倒的な数のインシデントが発生することがよくあります。効率的なインシデント管理を追求するためには、関連するインシデントを迅速に集約し、問題範囲を絞り込むことが必要です。そこで本論文では,クラウド障害のカスケードグラフに対するグラフ表現学習に基づくインシデント集約フレームワークGRLIAを提案する.インシデントの種類ごとに表現ベクトルを教師無しで統一的に学習し、インシデント間の位相的・時間的相関を同時に符号化することが可能である。そのため、オンラインインシデントの集約に容易に採用することができる。特に、相関関係をより正確に学習するために、きめ細かいシステム監視データ、すなわち、KPI(Key Performance Indicator)を活用し、障害の連鎖的影響の全範囲を回復することを試みる。提案するフレームワークは、Huawei Cloudの大規模オンラインサービスシステムから収集した実世界のインシデントデータを用いて評価されます。実験結果は、GRLIAが有効であり、既存の手法を上回ることを実証しています。さらに、我々のフレームワークは産業界への展開に成功している。 [[2021__ASE__Graph-based Incident Aggregation for Large-Scale Online Service Systems__translations]]