時系列異常検知ベンチマーク

# 時系列異常検知ベンチマーク ## 定義時系列異常検知ベンチマーク(TSAD Benchmark)は、時系列データにおける異常検知アルゴリズムを公平かつ再現可能に比較するための評価基盤である。対象アルゴリズムの選定・データセット収集・評価指標の統一・実行環境の制御・ハイパーパラメータ調整方針の明示が設計の主要課題となる。([[TimeEval]]、[[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]]) ## 横断的知見 - **既存ベンチマークは構造的に欠陥を持つ**: Wu & Keogh(2021)は「現存するすべての時系列異常検知ベンチマークは欠陥がある」と主張し、ラベルの信頼性低下(汚染率 > 10%)・少数手法の比較・実世界との乖離を共通問題として指摘した。[[TimeEval]] はこれへの回答として 71 手法・976 データセット・制御された合成データ([[GutenTAG]])を投入した。(Source: [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]]) - **「万能アルゴリズムは存在しない」が実験的に確認された**: [[TimeEval]] の 14 件の実践的知見(RI 1〜14)が示すのは、異常タイプ(極値は易、トレンドは難)・ベース波形(正弦波は易、CBF は難)・次元数(単変量有利)によって最良手法が変わり、完全スコアを達成した手法がゼロだという事実である。これは「ベンチマーク = 単一 SOTA を探す競争」という設計思想の限界を示す。(Source: [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]]) - **深層学習手法は学習コストに見合う精度優位を示せない**: 1 ソース(TimeEval 2022)の知見だが、先行研究([67])とも一致する再現性の高い発見。平均 AUC-ROC で DWT-MLEAD(分布系・教師なし・2.2 ms/点)がコスト/性能比の最良であり、LSTM 系・VAE 系が同等またはそれ以上のリソースを使いながら安定して優位を示せない。(Source: [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]]) - **評価指標の選択が結論を左右する**: AUC-ROC は感度優先・AUC-PR は適合率優先・AUC-PT₍R₎T は部分列の境界精度優先で、同一アルゴリズムでも指標次第で順位が逆転する(DeepAnT は AUC-ROC で強いが AUC-PR で弱い)。単一指標ベンチマークが特定用途に偏った評価をもたらすリスクを示す。(Source: [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]]) - **合成データ生成ツール([[GutenTAG]])がラベル品質問題を迂回する実用解として確立した**: 実世界データセットは「汚染率 > 10%・単一手法でも AUC-ROC ≥ 0.8 未達」という品質フィルタで大量除外が必要だが、GutenTAG は 9 種の異常タイプ × 5 種の基底波形で制御されたデータを生成し、アルゴリズム特性の精密分析を可能にする。(Source: [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]]) - **LLM × TSAD の役割分業 2 パラダイム**: [[@2025__arXiv__ARGOS - Agentic Time-Series Anomaly Detection with Autonomous Rule Generation via Large Language Models|ARGOS(Gu+ 2025)]] は LLM を**訓練時のルール生成のみ**に使い推論はルール実行(説明可能性・再現性・自律性を同時達成、推論レイテンシ最大 34.3x 高速化)。[[@2025__arXiv__Can Multimodal LLMs Perform Time Series Anomaly Detection|VisualTimeAnomaly(Xu+ 2025)]] は MLLM を**推論時の検知器**として使うが、粗粒度(range/variate)では数値モデル超え、点別では F1 上限 8.12% で大幅劣後。LLM の TSAD 組み込み方は「訓練時ルール抽出」と「推論時検知」で根本的に分化。(Source: [[@2025__arXiv__ARGOS - Agentic Time-Series Anomaly Detection with Autonomous Rule Generation via Large Language Models]] §3–4, [[@2025__arXiv__Can Multimodal LLMs Perform Time Series Anomaly Detection]] §4) - **EVT 系列が現代 TSAD のクラシック理論ベース**: [[@2017__KDD__Anomaly Detection in Streams with Extreme Value Theory|SPOT/DSPOT(Siffer+ 2017)]] が EVT の Peaks-Over-Threshold + GPD でストリーム異常検知を分布仮定なし・閾値手動設定なしで実現。今日の深層学習 TSAD(LSTMAD・MAD-GAN・USAD 等)が訓練済みモデル前提なのに対し、SPOT/DSPOT は確率モデル(GPD)から閾値を導出する。両系統は相補的で、特に cold-start・ラベルなし環境で SPOT が依然有効。(Source: [[@2017__KDD__Anomaly Detection in Streams with Extreme Value Theory]] §2–3) - **LLMAD が KPI/Yahoo/WSD で LLM 直接判定路線の新しいベンチマーク基準を打ち立てた**: [[@2025__KDD__Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection]] は KPI・WSD・Yahoo の 3 ベンチマークで平均 Best F1=0.759 を達成し、TFAD(0.725)・Informer(0.700)・Anomaly Transformer(0.621)を上回る。重要な対照は同論文が LLMTime を異常検知ベースラインに使った結果で、LLMTime の平均 Best F1=0.128 と LLMAD の 0.759 は 6 倍近い差。本ページの「LLM × TSAD の役割分業 2 パラダイム(ARGOS の訓練時ルール生成 vs VisualTimeAnomaly の推論時検知)」に第 3 のパラダイム「**Prompting + 履歴 ICL による LLM 直接判定 + 構造化出力**」が加わったことになり、TSAD ベンチマークでの LLM 利用は (a) ルール生成、(b) MLLM 検知、(c) Prompting 直接判定、の 3 路線で比較されるべき段階に入った。(Source: [[@2025__KDD__Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection]] §4) - **解釈品質を含めた評価軸が TSAD ベンチマークに加わった**: [[LLMAD]] は Best F1/Delayed F1 の検知精度に加え、(i) 説明の usefulness(5 段階)/readability(3 段階)を 5 名の DevOps エンジニアで評価、(ii) 異常タイプ分類の Acc(any-hit)/Micro F1、(iii) コスト(年間 $65.70)を併せて公開する。TimeEval が「異常タイプ・ベース波形・次元数で最良手法が変わる」と示した精度面の多面性に、**解釈品質と運用コストという業務文脈の評価軸**が追加された。この拡張は本ページの「ベンチマーク = 単一 SOTA を探す競争という設計思想の限界」の議論を、「解釈付き検知器の評価には精度 + 解釈品質 + コストの 3 軸が要る」という方向で具体化したもの。(Source: [[@2025__KDD__Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection]] §5-6, [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]]) - **RATs40K が「マルチモーダル × 推論アノテーション」ベンチマークの新次元を開いた**: [[@2026__ACL Findings__Time-RA - Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback]] の RATs40K は、既存ベンチマークとの対比(表 1)で「実世界・多ドメイン・Time+Text+Image 三モダリティ・単変量 14 種+多変量 6 種分類・Thought アノテーション」が揃った初の構成。AnomLLM(合成・Thought なし)・LLMAD(Thought は 100 件人手)・VisualTimeAnomaly(合成・Thought なし)はいずれも部分的にしかカバーしない。特に異常カテゴリの説明的推論(Observation–Thought–Action)を実世界約 4 万件に付与した点は、LLMAD が開いた「LLM 直接判定 + 解釈出力」路線を「大規模・多カテゴリ・マルチモーダル」で一段スケールアップしたものとして位置づけられる。AI フィードバック(GPT-4 優先選択・批評)の人手専門家との高一致(単変量 Likert 4.04–4.58、多変量 4.08–4.28)は、人手評価 100 件程度では担保できなかった規模でのアノテーション品質を確保できることを示す。(Source: [[@2026__ACL Findings__Time-RA - Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback]] §3–4) - **AIOPS・MSCloud という確立済みソフトウェア運用ベンチマークで、ゼロショット TSFM が訓練済み古典/浅い深層モデルに匹敵するが超えない、という具体的な数値が得られた**: [[@2026__ICPE Companion__Leveraging Time Series Foundation Models to Detect Performance Anomalies in Software Systems]] は本ページの疑問「TimeEval の『万能アルゴリズムは存在しない』は 2022 年以降の TSFM にも成立するか」に対し、AIOPS・MSCloud という具体的なソフトウェア運用ベンチマーク上で部分的な回答を与える。ChronosはMSCloudでAUC-PR 2位(0.52、最良のIsolation Forest 0.58に次ぐ)を達成する一方、AIOPSではAR相当(AUC-PR 0.25)にとどまり、「万能アルゴリズムは存在しない」という結論はTSFM世代でも継続する。さらに評価アジャストメント(異常セグメント単位でのk-ステップ遅延許容)を適用すると全モデルのF1_bestが大幅に改善する(例: MSCloud全体でAR 0.66→変化なしだがChronos 0.57→0.68)ことを示しており、これは本ページの「評価指標の選択が結論を左右する」という知見(AUC-ROC/AUC-PR/AUC-PT_RTの順位不一致)に、TSAD特有の「点ごと評価 vs セグメント単位評価」という第4の軸を加える具体例になる。(Source: [[@2026__ICPE Companion__Leveraging Time Series Foundation Models to Detect Performance Anomalies in Software Systems]], [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]]) ## 未解決の問い - TimeEval が示した「万能アルゴリズムは存在しない」という知見は、2022 年以降に登場した時系列基盤モデル([[Toto]] / [[TimesFM]] 等)にも成立するか。ゼロショット TSFM の異常検知能力はどの異常タイプ・データ特性で従来手法を超えるか。([[時系列基盤モデル]]) - [[GutenTAG]] の合成データは 5 種の基底波形 × 9 種の異常に限定される。実世界の AIOps ドメイン(観測メトリクス・ログ・インシデント信号)の多様性をカバーするために必要な合成データの追加次元は何か。([[異常検知]] § 観測データの正常な急変動問題) - TimeEval の Docker ベースのコンテナ単体制限(1 コア・3 GB)は深層学習手法に不利な条件を設定する。GPU あり・マルチコア設定での比較結果は変わるか。「深層学習は不利」という RI 1〜14 の結論はどこまで普遍的か。 - 評価指標の三者(AUC-ROC / AUC-PR / AUC-PT₍R₎T)が示す順位の不一致は、ベンチマーク設計として「用途依存の指標選択」が必要だという事実を意味する。実運用(AIOps インシデント対応)での最適指標は何か。([[本番接地型ベンチマーク]]) - Wu & Keogh 2021 の「ベンチマークが欠陥」という批判は [[TimeEval]] の設計で緩和されたが、97 手法中 10 件(タイムアウト/クラッシュ)の除外が評価の偏りをどの程度生んでいるか。 - 訓練時 LLM ルール生成(ARGOS)と推論時 MLLM 検知(VisualTimeAnomaly)を直列化したパイプラインの実証研究は未着手。前者の構造化ルールを後者の visual prompt に渡す統合は理論的に成立しうるが事例なし。 - [[LLMAD]] が示した「LLM 直接判定 + 解釈出力」路線と、[[@2025__arXiv__ARGOS - Agentic Time-Series Anomaly Detection with Autonomous Rule Generation via Large Language Models|ARGOS]] の「訓練時ルール生成 + 推論時ルール実行」路線、[[@2025__arXiv__Can Multimodal LLMs Perform Time Series Anomaly Detection|VisualTimeAnomaly]] の「推論時 MLLM 検知」路線をベンチマーク的に同一データ・指標で比較した研究は未着手。LLMAD が KPI/WSD/Yahoo で示した Best F1=0.759 は単変量ベンチマークでの結果で、多変量(SMD/MSL/SMAP 等)での比較も未実施。([[@2025__KDD__Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection]]) - LLMAD の人手評価(5 名 × 100 サンプル)は usefulness/readability の解釈品質を測るが、サンプル数とラベラー数が小さい。解釈品質ベンチマークを独立に整備する場合、ラベラー数・タスク数・データセット多様性をどう設計すべきか。 - RATs40K の AI フィードバック品質は単変量 Likert 4.04–4.58・多変量 4.08–4.28 で人手専門家と高一致するが、エキスパート評価が 100 件・50 件と限定的。大規模 AI フィードバックによる推論アノテーションは、人手評価を「品質のサンプル確認」に限定できる段階に入ったといえるか、それとも依然として人手評価の大規模化が必要か。([[@2026__ACL Findings__Time-RA - Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback]] §4.2) - [[@2026__ICPE Companion__Leveraging Time Series Foundation Models to Detect Performance Anomalies in Software Systems]] は AIOPS・MSCloud の 2 データセットのみ・単変量のみで評価している。TimeEval の 976 データセット規模での TSFM(Chronos・TSPulse)の系統的評価は未着手であり、TimeEval の RI 1〜14(異常タイプ・ベース波形・次元数依存の最良手法変化)が TSFM にどこまで当てはまるかは未検証。([[@2026__ICPE Companion__Leveraging Time Series Foundation Models to Detect Performance Anomalies in Software Systems]], [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]]) ## 関連 - 概念: [[異常検知]] / [[時系列基盤モデル]] / [[本番接地型ベンチマーク]] / [[LLM評価]] / [[時系列質問応答]] / [[LLM時系列アプローチ]] - エンティティ: [[TimeEval]] / [[GutenTAG]] / [[Sebastian Schmidl]] / [[Phillip Wenig]] / [[Hasso Plattner Institute]] / [[LLMAD]] / [[AnoCoT]] / [[Anomaly Transformer]] - ソース: [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]] / [[@2025__KDD__Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection]] / [[@2026__ICPE Companion__Leveraging Time Series Foundation Models to Detect Performance Anomalies in Software Systems]] - 関連 MOC: [[異常検知 - MOC]] / [[AIOps - Failure Detection - MOC]] ## 出典 - [[@2022__PVLDB__Anomaly Detection in Time Series - A Comprehensive Evaluation]](PVLDB 2022, §1 概要, §3 手法ファミリー, §4 実験評価, §5 討論) - [[@2025__KDD__Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection]](KDD 2025, §4 KPI/WSD/Yahoo の Best F1/Delayed F1 評価と ablation、§5 解釈評価、§6 コスト分析、Table 2-8) - [[@2026__ICPE Companion__Leveraging Time Series Foundation Models to Detect Performance Anomalies in Software Systems]](ICPE Companion '26, Table 1/2: AIOPS・MSCloud での Chronos・TSPulse ゼロショット評価とベースライン比較、§3.4 評価アジャストメント)