## Summary for Tweet
#SRE論文紹介 [Arya+,CODS-COMAD2021]:エラー数などの時間的ログデータからイベントの因果関係を推論する問題に対して、先行研究では独自のデータに対して特定の因果推論技術を適用しているため、異なる要素技術との比較ができない。そこで、本論文では、OSSの[[TrainTicket]]から採取されるデータセットに対して、(a)独立性検定に基づく[[PCアルゴリズム]]、(b)回帰ベースの[[Granger因果性]]検定、(c)グラフィカルイベントモデル(GEM)の性能を比較している。
実験の結果、GEMは独立性検定や回帰ベースの因果推論法と比較し、高い精度・再現性の因果グラフを生成した。高度なPC変種PCModとMMPCは、RCoTのような非線形CIテストよりも線形CIテスト(G2と偏相関)との組み合わせで良い結果となった
[Arya+, CODS-COMAD2021]: Evaluation of Causal Inference Techniques for AIOps
paper: https://www.researchgate.net/profile/Qing-Wang-161/publication/348016904_Evaluation_of_Causal_Inference_Techniques_for_AIOps/links/60d5cb0692851ca9448530f6/Evaluation-of-Causal-Inference-Techniques-for-AIOps.pdf
## Memo
- [[IBM Research AI]]からの会議論文。
- 時間的ログデータからイベントの因果関係を推論する問題に対して、先行研究では独自のデータに対して特定の因果推論技術を適用している。本論文では、OSSの[[TrainTicket]]から採取されるデータセットに対して、(a)独立性検定に基づく[[PCアルゴリズム]]、(b)回帰ベースの[[Granger因果性]]検定、(c)グラフィカルイベントモデル(GEM)の性能を比較する。
- 独立性検定ベースのアプローチ:文献[7,12]では、[[情報理論]]の観点でのGranger因果性が定式化され、条件付き相互情報量を時間シフトに対する総和の有効相互情報量の値が0であれば有向辺を削除する。 時系列が定常性でない場合、有向相互情報を直接検定できないため、既成の[[条件付き独立性検定]]を用いて、ある共同分布で近似的に検定される。その他、PCやMMPCの他、時系列の場合は、[[2019__Science Advances__Detecting and quantifying causal associations in large nonlinear time series datasets|PCMCI]]、Modified PC[5]がある。条件付き独立性検定として、[[G2検定]]、ParCorr、RCoTを用いる。
- 回帰ベースアプローチ:ラグに対する線形回帰の残差を分布検定する古典的Granger、Lassoペナルティを用いたスパース線形回帰を用いるLassoGranger法、線形回帰によるグループLassoペナルティ、非線形性をモデル化するLSTMモデルとともに階層的なグループLassoペナルティなどがあるが、本実験ではベイズ線形回帰(BLR)、ベイズラッソ回帰(BLasso)を用いる。
- GEMはログデータを多変量非一様ポアソン過程としてモデル化され、時間$t$における瞬間強度(ポアソン率)関数はt以前の親イベント$P_a(A)$ のイベントタイプの発生の時間列の関数である。著者らは、時間ビン化パラメータを探索せずに、グラフ構造のみ探索するスコアベースの手法を提案し、ウィンドウ探索(グラフ が与えられた親候補のそれぞれについて)を強度関数を含む尤度最大化に組み込んだPGEM。
- 30分実行されたアプリケーションに、ts-basic-serviceのみを削除したときのログを、辞書ベースのエラーパターン分類器で分類し、ラベルの正確性を手動で検証している。合計266のエラーログ、10、100、1000msの3つのビンサイズ。図2の因果グラフのGroundTruthに対して、精度、再現率、およびF1スコアで評価する。
- 実験結果:GEMはPCや回帰ベースのGranger因果検定と比較し、高い精度・再現性の因果グラフを生成した。高度なPC変種PCModとMMPCは、RCoTのような非線形CIテストよりも線形CIテスト(G2と偏相関)との組み合わせで良い結果となった。ビンサイズが1000msと大きいと一様に性 能が低下する。
- ![[Pasted image 20230510145007.png|600]]
- ![[Pasted image 20230510145033.png|400]]
- 今後の課題:異なる種類のフォルトとより多くのマイクロサービスを含む実験を行う。時系列の長さと粒度、ログラベルノイズ、ログのタイミング情報におけるジッターの影響に対するアルゴリズムの感度を調査する。
- 感想:[[2021__ACSOS__Causal Inference Techniques for Microservice Performance Diagnosis - Evaluation and Guiding Recommendations|Wu+, ACSOS2021]]同様、因果推論に関する様々な要素技術の組み合わせを比較調査している論文はありがたい。しかしながら、故障のケースが一つしかないため、再現性の高い評価結果なのかが不明である。回帰ベースの手法で、様々な手法が挙げられているにも関わらず、BLRとBLassoのみを選択している理由がわからず、なんらかの恣意性があるように読める。
## Abstract
Inferring causality of events from log data is critical to IT operations teams who continuously strive to identify probable root causes of events in order to quickly resolve incident tickets so that down- times and service interruptions are kept to a minimum. Although prior work has applied some specific causal inference techniques on proprietary log data, they fail to benchmark the performance of different techniques on a common system or dataset. In this work, we evaluate the performance of multiple state-of-the-art causal inference techniques using log data obtained from a publicly avail- able benchmark microservice system. We model log data both as a timeseries of error counts and as a temporal event sequence and evaluate 3 families of Granger causal techniques: regression based, independence testing based, and event models. Our preliminary re- sults indicate that event models yield causal graphs that have high precision and recall in comparison to regression and independence testing based Granger methods.
IT運用チームは、インシデントチケットを迅速に解決し、ダウンタイムやサービスの中断を最小限に抑えるために、イベントの根本原因と思われるものを特定することに絶えず努めています。先行研究では、独自のログデータに特定の[[因果推論]]技術を適用していますが、共通のシステムやデータセットで異なる技術の性能を評価することはできません。本研究では、一般に公開されているベンチマークとなるマイクロサービスシステムから得られたログデータを用いて、複数の最新の因果推論技術の性能を評価する。ログデータをエラーカウントの時系列と時間的なイベントシーケンスの両方としてモデル化し、回帰ベース、独立性テストベース、イベントモデルの3種類の[[Granger因果性|Granger因果]]推定手法を評価した。その結果、イベントモデルは、回帰ベースや独立性テストベースのGrangerメソッドと比較して、高い精度と再現性を持つ因果グラフを生成することがわかった。
[[2021__CODS-COMAD__Evaluation of Causal Inference Techniques for AIOps__translations]]