システム変化イベントに契機する学習

IEEE ICWS22の[[2022__ICWS__TS-InvarNet - Anomaly Detection and Localization based on Tempo-spatial KPI Invariants in Distributed Services|TS-InvarNet]] (https://yuxiaoba.github.io/publication/tsinvarnet22/tsInvarNet22.pdf) という論文では、オフライン（正常時）時にある程度時間のかかる学習処理を行い、オンライン（障害発生時）に。[[Mackerelの異常検知]]もこの構造になっており、この構造をとる障害検知・故障箇所特定手法は多い。しかし、アプリケーションのデプロイやインフラ構成の変更、ユーザー行動の恒常的な変更などのシステムの変化にあわせて、オフラインで学習した結果を更新しないといけない。Mackerelではこれに対処するために、定期的に再学習を行っているものの、学習処理にかかる事業者側のインフラコストが増えるので、顧客に機械学習機能の課金を追加で求めることになる。 ![[Pasted image 20230131170940.png]] そこで、再学習の頻度を小さくしたり、再学習の範囲を小さくして計算量を小さくできれば、その分顧客に安くAI機能を提供できることになる。頻度を小さくするためには、システムの変化に関するイベント（インシデント、デプロイなど）に起因して学習処理を走らせる。システムの変化イベントを管理するシステムが必要になる。