2025__ArXiv__Can Multimodal LLMs Perform Time Series Anomaly Detection

## Memo - 時系列データを画像化してVLLMに与えれば異常検知できるのでは？とSREsと議論していてよくある着想に関する論文。 ## Memo with LLM ### 論文情報 - **論文タイトル**: Can Multimodal LLMs Perform Time Series Anomaly Detection? - **著者と所属**: - Xiongxiao Xu (Illinois Institute of Technology) - Haoran Wang (Emory University) - Yueqing Liang (Illinois Institute of Technology) - Philip S. Yu (University of Illinois Chicago) - Yue Zhao (University of Southern California) - Kai Shu (Emory University) - **カンファレンス/ジャーナル名**: ArXiv preprint (arXiv:2502.17812) - **発表年**: 2025年 ### 論文概要本論文は、マルチモーダル大規模言語モデル（MLLM）による時系列異常検出の能力を初めて包括的に調査した研究である。VisualTimeAnomalyベンチマークを提案し、時系列データを画像に変換してMLLMsに入力することで、従来のテキストベースのアプローチとは異なる新しい異常検出手法を実現している。 ### 詳細解説 #### 問題設定 **入力**: 時系列数値データ（単変量、多変量、不規則時系列） **出力**: 異常の検出結果（点異常、範囲異常、変量異常の3つの粒度） **必要なデータ**: 合成データセット（正弦波など）と実世界データセット（UCR/UEAアーカイブ）を使用し、12.4k枚の時系列画像を含むベンチマークデータセットを構築 #### 提案手法 **VisualTimeAnomaly**は以下の手順で時系列異常検出を行う： 1. **時系列画像構築（TSI Construction）**: - 単変量時系列: x軸で異常位置を識別可能な画像形式に変換 - 多変量時系列: 各変数を小画像として配置し、グリッド形式で単一画像に統合 - 不規則時系列: 欠損データ点を空白として可視化 2. **異常定義**: - 点異常: |xt - x̂t| > δ（個別時点での予期しない事象） - 範囲異常: diss(xi,j, x̂i,j) > δ（季節性、トレンド、形状の変化） - 変量異常: diss(G(x)m, Ĝ(x)m) > δ（他変数から大きく逸脱した変数全体） 3. **MLLMsでの推論**: GPT-4o、Gemini-1.5、LLaVA-NeXT、Qwen2-VLの8モデルで評価 #### 新規性従来研究は単変量時系列の点・範囲異常のみに限定されていたが、本研究は多変量・不規則時系列における変量異常まで包括的に調査した初の研究である。時系列を画像として表現することで、MLLMsの視覚的理解能力を時系列分析に活用する新しいパラダイムを提示している。 #### 実験設定 **データセット**: - 合成データ: 正弦波ベース（単変量）、正弦・余弦波ベース（多変量） - 実世界データ: Symbols（UCRアーカイブ）、ArticularyWordRecognition（UEAアーカイブ） **評価指標**: - 点・範囲異常: Affiliation概念に基づくPrecision、Recall、F1スコア - 変量異常: 標準的なPrecision、Recall、F1スコア **実験条件**: 不規則性比率5-25%、多変量次元数4-36での評価 #### 実験結果 **主要な発見**: 1. **粒度による性能差**: 範囲異常・変量異常（粗粒度）の検出が点異常（細粒度）より優秀 - GPT-4o例: trend(F1=73.48) > shapelet(72.92) > seasonal(52.89) > global(17.91) > contextual(4.66) 2. **モデル種別による性能差**: - 単変量: オープンソースMLLMs（特にQwen2-VL-72B）が優秀 - 多変量: プロプライエタリMLLMs（Gemini-1.5-Pro: F1=92.54）が優秀 3. **不規則時系列への頑健性**: 25%データ欠損でも性能低下は軽微（最大4.89ポイント低下） 4. **次元数の影響**: 多変量次元数増加により性能低下（M=4でF1=100 → M=36でF1=33.2） **具体的数値**: - 最高性能: Gemini-1.5-Pro（変量異常、F1=92.54） - オープンソース最高: Qwen2-VL-72B（範囲異常、F1=92.19） - 不規則時系列での頑健性: 25%欠損でも大幅性能低下なし論文では小規模オープンソースモデルでの幻覚（hallucination）問題も指摘され、より効果的な時系列画像化手法の探求が今後の課題として挙げられている。 ## Abstract 大規模言語モデル（[[LLM]]）は時系列分析において次第に使用されるようになっています。しかし、特にビジョン言語モデルに関するマルチモーダルLLM（MLLM）の時系列における潜在能力は、ほとんど探求されていません。人間が時系列異常を検出する自然な方法の一つは、視覚化とテキスト記述を通じてです。これに動機づけられ、我々は重要で実用的な研究課題を提起します：マルチモーダルLLMは時系列異常検出を実行できるか？この問いに答えるため、我々は時系列異常検出（TSAD）におけるMLLMsを評価するためのVisualTimeAnomalyベンチマークを提案します。我々のアプローチは、時系列の数値データを画像形式に変換し、これらの画像をプロプライエタリモデル（GPT-4oとGemini-1.5）とオープンソースモデル（LLaVA-NEXTとQwen2-VL）を含む様々なMLLMsに入力します。各モデルには大きなバリアントと小さなバリアントがあります。合計で、VisualTimeAnomalyは3つのシナリオと3つの異常粒度にわたる12.4k枚の時系列画像を含み、8つのMLLMsにわたって9つの異常タイプを含んでいます。単変量の場合（点異常と範囲異常）から始まり、多変量と不規則な時系列シナリオ、および変量異常を含むより実用的なシナリオへと評価を拡張します。我々の研究はいくつかの重要な洞察を明らかにします：1）MLLMsは点異常よりも範囲異常と変量異常をより効果的に検出します；2）MLLMsは25％のデータが欠落していても不規則な時系列に対して高い頑健性を示します；3）オープンソースMLLMsはTSADにおいてプロプライエタリモデルと同等の性能を発揮します。オープンソースMLLMsは単変量時系列で優れる一方、プロプライエタリMLLMsは多変量時系列でより優れた効果を示します。我々の知る限り、これは特に多変量と不規則な時系列シナリオにおいて、TSADのためのMLLMsを包括的に調査した最初の研究です。我々は将来の研究を支援するため、データセットとコードを公開しています。