# 時系列異常検知ベンチマーク
## 定義
時系列異常検知ベンチマーク(TSAD Benchmark)は、時系列データにおける異常検知アルゴリズムを公平かつ再現可能に比較するための評価基盤である。対象アルゴリズムの選定・データセット収集・評価指標の統一・実行環境の制御・ハイパーパラメータ調整方針の明示が設計の主要課題となる。([[TimeEval]]、[[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]])
## 横断的知見
- **既存ベンチマークは構造的に欠陥を持つ**: Wu & Keogh(2021)は「現存するすべての時系列異常検知ベンチマークは欠陥がある」と主張し、ラベルの信頼性低下(汚染率 > 10%)・少数手法の比較・実世界との乖離を共通問題として指摘した。[[TimeEval]] はこれへの回答として 71 手法・976 データセット・制御された合成データ([[GutenTAG]])を投入した。(Source: [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]])
- **「万能アルゴリズムは存在しない」が実験的に確認された**: [[TimeEval]] の 14 件の実践的知見(RI 1〜14)が示すのは、異常タイプ(極値は易、トレンドは難)・ベース波形(正弦波は易、CBF は難)・次元数(単変量有利)によって最良手法が変わり、完全スコアを達成した手法がゼロだという事実である。これは「ベンチマーク = 単一 SOTA を探す競争」という設計思想の限界を示す。(Source: [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]])
- **深層学習手法は学習コストに見合う精度優位を示せない**: 1 ソース(TimeEval 2022)の知見だが、先行研究([67])とも一致する再現性の高い発見。平均 AUC-ROC で DWT-MLEAD(分布系・教師なし・2.2 ms/点)がコスト/性能比の最良であり、LSTM 系・VAE 系が同等またはそれ以上のリソースを使いながら安定して優位を示せない。(Source: [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]])
- **評価指標の選択が結論を左右する**: AUC-ROC は感度優先・AUC-PR は適合率優先・AUC-PT₍R₎T は部分列の境界精度優先で、同一アルゴリズムでも指標次第で順位が逆転する(DeepAnT は AUC-ROC で強いが AUC-PR で弱い)。単一指標ベンチマークが特定用途に偏った評価をもたらすリスクを示す。(Source: [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]])
- **合成データ生成ツール([[GutenTAG]])がラベル品質問題を迂回する実用解として確立した**: 実世界データセットは「汚染率 > 10%・単一手法でも AUC-ROC ≥ 0.8 未達」という品質フィルタで大量除外が必要だが、GutenTAG は 9 種の異常タイプ × 5 種の基底波形で制御されたデータを生成し、アルゴリズム特性の精密分析を可能にする。(Source: [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]])
## 未解決の問い
- TimeEval が示した「万能アルゴリズムは存在しない」という知見は、2022 年以降に登場した時系列基盤モデル([[Toto]] / [[TimesFM]] 等)にも成立するか。ゼロショット TSFM の異常検知能力はどの異常タイプ・データ特性で従来手法を超えるか。([[時系列基盤モデル]])
- [[GutenTAG]] の合成データは 5 種の基底波形 × 9 種の異常に限定される。実世界の AIOps ドメイン(観測メトリクス・ログ・インシデント信号)の多様性をカバーするために必要な合成データの追加次元は何か。([[異常検知]] § 観測データの正常な急変動問題)
- TimeEval の Docker ベースのコンテナ単体制限(1 コア・3 GB)は深層学習手法に不利な条件を設定する。GPU あり・マルチコア設定での比較結果は変わるか。「深層学習は不利」という RI 1〜14 の結論はどこまで普遍的か。
- 評価指標の三者(AUC-ROC / AUC-PR / AUC-PT₍R₎T)が示す順位の不一致は、ベンチマーク設計として「用途依存の指標選択」が必要だという事実を意味する。実運用(AIOps インシデント対応)での最適指標は何か。([[本番接地型ベンチマーク]])
- Wu & Keogh 2021 の「ベンチマークが欠陥」という批判は [[TimeEval]] の設計で緩和されたが、97 手法中 10 件(タイムアウト/クラッシュ)の除外が評価の偏りをどの程度生んでいるか。
## 関連
- 概念: [[異常検知]] / [[時系列基盤モデル]] / [[本番接地型ベンチマーク]] / [[LLM評価]] / [[時系列質問応答]]
- エンティティ: [[TimeEval]] / [[GutenTAG]] / [[Sebastian Schmidl]] / [[Phillip Wenig]] / [[Hasso Plattner Institute]]
- ソース: [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]]
- 関連 MOC: [[異常検知 - MOC]] / [[AIOps - Failure Detection - MOC]]
## 出典
- [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]](PVLDB 2022, §1 概要, §3 手法ファミリー, §4 実験評価, §5 討論)