## Memo
- [GitHub - IntelligentDDS/GIED: Graph based Incident Extraction and Diagnosis in Large-Scale Online Systems (ASE'22)](https://github.com/IntelligentDDS/GIED)
- [Graph based Incident Extraction and Diagnosis in Large-Scale Online Systems (ASE 2022 - Research Papers) - ASE 2022](https://conf.researchr.org/details/ase-2022/ase-2022-research-papers/18/Graph-based-Incident-Extraction-and-Diagnosis-in-Large-Scale-Online-Systems)
## Abstract
オンラインシステムの大規模化、複雑化に伴い、インシデントの発生は次第に一般化してきています。このようなインシデントは、適切に対処しなければ、システムの可用性に深刻な影響を及ぼしかねません。しかし、大規模なオンラインシステムでは、これらのインシデントは多くの問題(つまり、必ずしもインシデントではないものの、何か異常がある状態)に紛れていることが多く、その対処は困難です。一般に、これらの問題はシステム全体に連鎖的な影響を及ぼし、インシデントを適切に管理するためには、この影響を徹底的に分析することに大きく依存する。そこで、本論文では、オンラインシステムの可用性問題のカスケード効果を自動的に分析し、問題の症状と影響を受けるサービスの属性の両方を組み込んだグラフベースの問題表現を抽出する方法を提案する。抽出された表現を使って、インシデント検出を行うために[[Graph Neural Network]]に基づいたモデルを学習し利用する。そして、検出されたインシデントに対して、その根本原因を突き止めるために、柔軟な遷移行列設計を持つ[[PageRank]]アルゴリズムを活用する。我々は、非常に大規模なインスタントメッセージング会社から収集した実世界のデータを使用して、我々のアプローチを評価する。その結果、我々のアプローチの有効性が確認された。さらに、我々のアプローチは企業内でうまく展開され、問題と関連する警告信号の洪水に直面するオペレータの負担を軽減することができた。
[[2022__ASE__Graph based Incident Extraction and Diagnosis in Large-Scale Online Systems__translations]]