## Memo
- VLDB'22の時系列データ異常検知のサーベイ論文
- 158個の異常検知法の分類
![[Pasted image 20240110155639.png]]
- i) Deep Learning, (ii) Stochastic Learning, (iii) Classic Machine Learning, (iv) Outlier Detection, (v) Statistics (Regression and Forecasting), (vi) Data Mining, and (vii) Signal Analysis.
- アルゴリズムのファミリー6種
- forecasting
- differ most in the type of forecasting model that they use (i. e., the type of normal behavior model), in the way they build this model (i. e., the learning approach) and the calculation metric for the anomaly scores (i. e., the distance metric for forecasted and observed values).
- reconstruction
- 通常の学習時系列の部分配列を(低次元 )潜在空間に符号化することにより、正常な動作のモデルを構築する。テスト時系列の異常を検出するために、テスト時系列 からの部分列を潜在空間から再構成し、再構成された部分列の 値を元の観測系列の値と比較する。
- distance
- 時系列の点または部分列を互いに比較する ために、特殊な距離メトリックスを使用
- encoding
- 潜在空間から部分列を再構成するのではなく、 潜在空間表現から直接異常スコアを計算
- distribution
- データの分布を推定するか、分布モデル をデータに適合させる。
- isolation tree
Time series anomaly detection is the process of marking anomalies in a given time series.
- (RI 1) 教師ありアルゴリズムは、学習時に追加情報(正常点と異常点のラベル)を使用するにもかかわらず、半教師ありアプローチや教師なしアプローチと比較して優れた結果を達成することはできない。
- (RI 2) there is no one-size-fits-all solution in the set of currently available algorithms: A multivariate algorithm is necessary to detect multivariate anomalies (e. g., anomalies in the correlation of series), but a univariate algorithm is preferable for univariate data.
- (RI 3)各実装に強力な投資を行ったにもかかわらず、全体的に比較的高いエラーの影響を受けやすいことは、実用的なアルゴリズムの展開には慎重なテストが必要であることを示している。
- (RI 4) したがって、最も適切な採点指標は、ユースケースと結果が何を示すと期待されるかに依存する。
- (RI 5)異なるデータセットに対する我々の実験結果は、全体として、どの異常検知ファミリーも有効であり、明確な勝者は存在しないことを示している。さらに、単一のアルゴリズムが満点を達成することはなく、今後の研究の余地が多く残されている。
- (RI6)極端な異常が最も起こりやすいと思われる(平均AUC-ROCスコアが0.8以上)
- (RI 7)最も困難な異常の傾向(平均AUC-ROCスコアが0.6以下)。
- (RI 8) 周波数とパターンシフトの異常は、検出できるアルゴリズム(主に距離と予測)と検出できないアルゴリズム(主に再構築とツリー)に明確に分かれる。
- (RI 9) カオス的な時系列には構造がないため、ほとんどのアルゴリズムでは、ノーマルな挙動に適した表現を見つけるのに苦労するか、正常な部分系列と異常な部分系列をまったく区別できない。
- RI 10)周期的な時系列の異常は、非周期的な時系列よりも検出が容易である。平均値が0.03しか違わないにもかかわらず、非周期的時系列(2アルゴリズム)よりも周期的時系列(16アルゴリズム)の方が0.90以上のスコアに達したアルゴリズムが多い。
- (RI11)要約すると、ほとんどの再構成手法は、AUC-ROCスコアがかなり悪く(~0.5)、このグループの一部のアルゴリズム、すなわち、EncDec-ADとDonutだけが、すべての特性にわたってうまく異常を検出することができた、 逆に、予測アルゴリズムと距離アルゴリズムは、特に良い結果をもたらし、DeepAnTやSub-LOFのようなそれらの代表的なアルゴリズムの多くは、ほとんどすべての特性において、最良のパーフォーミング・アルゴリズムの一つである。
- (RI12)ほとんどの教師ありアルゴリズムと半教師ありアルゴリズムは、我々の評価で最も遅いアルゴリズムの1つであり、1つのデータポイントに平均255 msを必要とします。この観察結果は、関連研究[67]で得られた同様の結論を裏付けるものである。
- (RI 13)全体として、最速のアルゴリズムも最遅のアルゴリズムも、定性的には良好な結果をもたらさなかった(表3参照)。我々の実験において、コスト/ベネフィット比が明らかに最良であったアルゴリズムは、平均AUC-ROCスコアが83%で、データポイントあたり2.2 𝑠の卓越したランタイムを持つDWT-MLEADである。
- (RI 14) 実際に3ᵃ𝐵のメモリ制限で苦労している実装はわずかです。例えばLSTM-ADとEncDec-ADは、生来他の手法よりも多くのメモリを必要とする深層学習手法であるため、それぞれ実験の50%と26%で制限を超えました。教師なしCOFアルゴリズムも全実験の24%で制限を超えた。COFアルゴリズムは比較的メモリ効率が悪いが、多変量データを分析することができる。
-
## Abstract
時系列データから異常な部分配列を検出することは、金融アプ リケーションよりも製造プロセスからヘルスケアモニタリング に至るまで、重要なタスクである。異常は、生産障害、配送ボトルネック、システム欠陥、ハートフリッカーなどの重要な事 象を示すことがあり、それゆえ、中心的な関心事となっている 。時系列はしばしば大規模で複雑なパターンを示すため、デー タサイエンティストはこのような異常なパターンを自動的に検出するための様々な専門アルゴリズムを開発してきた。過去に異常検出アルゴリズムの数と種類が著しく増加し、これらのソリューションの多くは独立して、また異なる研究コミュニティによって開発されているため、異なるアプローチを系統的に評 価し比較する包括的な研究は存在しない。このため、与えられ た異常検出タスクに最適な検出技術を選択することは困難な課 題である。この包括的な科学的研究は、ほとんどの最先端異常 検出アルゴリズムを慎重に評価するものである。我々は、異な るドメインから71の異常検出アルゴリズムを収集し、再実装し 、976の時系列データセットで評価した。これらのアルゴリズ ムは、異なるアルゴリズムファミリーと検出アプローチから選択され、異常検出技術の全領域を表現している。本論文では、技術とその共通点について簡潔に概観し、それぞれの長所と短所を評価し、それによって有効性、効率性、頑健性などの要因を考慮する。我々の実験結果は、アルゴリズム選択問題を緩和し、新たな研究の方向性を開くものと考えられる。
## 1. Introduction