## Memo
- [[2022__WWW__Robust System Instance Clustering for Large-Scale Web Services|OmniCluster]]より引用。
- [[NetManAIOps]]
## Abstract
大規模なインターネット企業にとって、多数のKPI(Key Performance Indicator)を監視し、異常を検知することは、サービス品質と信頼性を確保するために非常に重要である。しかし、数百万のKPIに対する大規模な[[異常検知]]は、モデル選択、パラメータチューニング、モデルトレーニング、またはラベリングに大きなオーバーヘッドがかかるため、非常に困難である。本論文では、KPIクラスタリングが役立つと主張します。数百万のKPIを少数のクラスタに分類し、クラスタごとにモデルを選択し学習させることができます。しかし、KPIクラスタリングは、古典的な[[時系列クラスタリング]]にはない新しい課題に直面している。KPIは一般的に他の時系列よりもはるかに長く、ノイズ、異常、位相のずれ、振幅の違いによってKPIの形状が変化し、クラスタリングアルゴリズムに誤解を与えることがよくあるのです。
上記の課題に取り組むため、本論文では、堅牢かつ迅速なKPIクラスタリングアルゴリズムであるROCKAを提案する。これは、前処理、ベースライン抽出、クラスタリング、割り当ての4つのステップから構成される。これらの技術は、KPIをその基本的な形状に従って、高い精度と効率でグループ化するのに役立つ。実世界のKPIを用いた評価では、ROCKAは0.85以上のFスコアを獲得し、最新の異常検出アルゴリズムのモデル学習時間を90%削減し、性能損失は15%に留まる。
[[2018__IWQoS__Robust and Rapid Clustering of KPIs for Large-Scale Anomaly Detection__translations]]