## Memo - https://openreview.net/forum?id=weoLjoYFvXY ## Abstract 近年、マイクロサービスはその拡張性、保守性、柔軟性から、IT運用において広く採用されている。しかし、システムの不具合に直面したとき、マイクロサービス内の複雑な関係性により、サイト信頼性エンジニア([[notes/sre/SRE]])が根本原因を特定することは困難となる。これまでの研究では、因果関係を確立し、因果グラフから根本原因を導き出すために、構造化学習手法([[PCアルゴリズム]]など)が採用されていた。しかしながら、それらは時系列データの時間的順序を無視し、時間的関係に内在する豊富な情報を活用することができなかった。例えば、CPU使用率が急激に上昇した場合、他のマイクロサービスのレイテンシが増加する可能性がある。しかし、このシナリオでは、CPU使用率の異常は、レイテンシの増加と同時ではなく、その前に発生する。その結果、PCアルゴリズムはこのような特性を捉えることができない。このような課題に対処するため、[[対照学習]]を用いたニューラル・グレンジャー因果発見を用いた根本原因分析のための新しいアプローチであるRUNを提案する。RUNは、時系列からの文脈情報を統合することでバックボーンエンコーダを強化し、時系列予測モデルを活用してニューラルグレンジャー因果探索を行う。さらに、RUNはページランクとパーソナライズベクトルを組み込み、上位k個の根本原因を効率的に推薦する。合成データセットと実世界のマイクロサービスベースのデータセットで行った広範な実験により、RUNが最先端の根本原因分析手法を顕著に凌駕することが実証された。さらに、マイクロサービスベースのアプリケーションにおけるRUNの実用性と有効性を示すために、靴下屋をケースとした分析シナリオを提供する。我々のコードはこのhttpsのURLで公開されている。