IEEE ICWS22の[[2022__ICWS__TS-InvarNet - Anomaly Detection and Localization based on Tempo-spatial KPI Invariants in Distributed Services|TS-InvarNet]] (https://yuxiaoba.github.io/publication/tsinvarnet22/tsInvarNet22.pdf) という論文では、オフライン(正常時)時にある程度時間のかかる学習処理を行い、オンライン(障害発生時)に。[[Mackerelの異常検知]]もこの構造になっており、この構造をとる障害検知・故障箇所特定手法は多い。しかし、アプリケーションのデプロイやインフラ構成の変更、ユーザー行動の恒常的な変更などのシステムの変化にあわせて、オフラインで学習した結果を更新しないといけない。Mackerelではこれに対処するために、定期的に再学習を行っているものの、学習処理にかかる事業者側のインフラコストが増えるので、顧客に機械学習機能の課金を追加で求めることになる。 ![[Pasted image 20230131170940.png]] そこで、再学習の頻度を小さくしたり、再学習の範囲を小さくして計算量を小さくできれば、その分顧客に安くAI機能を提供できることになる。頻度を小さくするためには、システムの変化に関するイベント(インシデント、デプロイなど)に起因して学習処理を走らせる。 システムの変化イベントを管理するシステムが必要になる。