# Can Multimodal LLMs Perform Time Series Anomaly Detection?
arXiv:2502.17812 / WWW 2026 採択論文。略称 **VisualTimeAnomaly**。
著者: [[Xiongxiao Xu]]([[Illinois Institute of Technology]])・[[Haoran Wang]]([[Emory University]])・[[Yueqing Liang]]([[Illinois Institute of Technology]])・[[Philip S. Yu]]([[University of Illinois Chicago]])・[[Yue Zhao]]([[University of Southern California]])・[[Kai Shu]]([[Emory University]])
コード: https://github.com/mllm-ts/VisualTimeAnomaly
---
## 研究課題
マルチモーダル LLM(視覚言語モデル)は時系列異常検知(TSAD)を実施できるか。3 つのリサーチクエスチョンを設定する。
- **RQ1**: MLLM はゼロショットで多粒度(点別・範囲別・変量別)の TSAD を実施できるか。
- **RQ2**: MLLM は不規則時系列の異常をゼロショットで検知できるか。
- **RQ3**: テキスト・画像・複合のどの入力モダリティが TSAD に最適か。
---
## VisualTimeAnomaly ベンチマーク
### 異常タイプの定義
本論文は時系列異常を 4 粒度で体系化する。
| 粒度 | 定義 | サブタイプ |
|---|---|---|
| **点別(Point-wise)** | 単一時刻での逸脱(|xₜ − x̂ₜ| > δ) | グローバル / コンテキスト |
| **範囲別(Range-wise)** | 部分列の異常(季節性・トレンド・形状) | 季節性 / トレンド / シェープレット |
| **変量別(Variate-wise)** | 多変量時系列中の特定変量全体の逸脱 | 三角波 / 矩形波 / ノコギリ波 / ランダム |
| **不規則(Irregular)** | 欠損・不等間隔サンプリング下での上記異常 | 各点・範囲の不規則版 |
既存研究が点別と範囲別を混同しがちな問題(点別を範囲別の特殊ケースとして扱う、またはその逆)を指摘し、変量別と不規則を明示的に追加した点が本論文の貢献である。
### データセット・評価設定
- **合成データ**: 正弦波・余弦波(単変量 長さ 400、多変量 長さ 200)。各異常タイプ 100 個の時系列画像(TSI)を 3 回実験。
- **実世界データ**: UCR アーカイブの Symbol データセット(単変量、長さ 398)および UEA アーカイブの ArticularyWordRecognition(多変量、長さ 144)。
- **ベースライン**: 古典手法(iForest, OCSVM)、深層学習手法(OmniAnomaly, THOC, TranAD)。
- **評価 MLLM**: GPT-4o / GPT-4o-mini(OpenAI)、Gemini-1.5-Pro / Gemini-1.5-Flash(Google)、LLaVA-NeXT-72B / LLaVA-NeXT-8B(オープンソース)、Qwen2-VL-72B / Qwen2-VL-7B(Alibaba)。
- **評価指標**: 精度(Precision)・再現率(Recall)・F1。
---
## 主要知見
### RQ1: 多粒度 TSAD
MLLM の最大 F1 は点別で 4.09 % にとどまるが、範囲別では 50.33 %、変量別では 63.40 % に達する。粒度が粗くなるほど検知性能が向上する(変量>範囲>点)。
従来手法と MLLM は**相補的**である。MLLM は粗粒度(範囲別・変量別)に優位、従来手法は細粒度(点別)に優位。数値推論能力の限界(例: 9.11 > 9.9 を誤判定)が点別での MLLM の弱点として指摘される。
### RQ2: 不規則時系列 TSAD
欠損率 r を 0% から 25% まで 5% 刻みで変化させた実験では、MLLM の性能はほぼ安定する(例: Gemini の範囲別 F1 が r=0% で 30.34、r=25% で 30.39)。一方、従来手法は点別で F1 が 38.86 → 20.57 と 47% 低下する。
不規則耐性の源泉を分解した実験(C1: 可視化のみ、C2: LLM テキストのみ、C3: 可視化+LLM)では、C3 の組み合わせが最も高いロバスト性を示す。可視化のみ(C1: ViTST)はランダム推測と同等(精度 ≈50%)に過ぎず、**可視化と言語推論の相乗効果**が耐性の主因である。
### RQ3: 入力モダリティの影響
テキストから画像へ切り替えると、点別の F1 が低下(例: GPT-4o で 5.71 → 2.61)する一方、範囲別・変量別では向上(例: GPT-4o で 11.95 → 29.88)する。テキストは定量的変動に焦点を当て、画像は定性的パターンを強調するためである。
テキストと画像の組み合わせ(T+V)は点別で最善だが、範囲別・変量別では視覚(V)単独が最善。長文脈学習の課題が複合モダリティの性能を制限すると考えられる。
入力モダリティとハルシネーションの関係では、画像入力がテキスト入力より幻覚率を大幅に削減する(LLaVA-NeXT-72B: テキスト 98.3 件 → 画像 21.7 件)。入力テキストが長くなるとハルシネーションが増加する構造的問題を指摘している。
---
## TSAD-Agents フレームワーク
4 エージェントで構成されるマルチエージェント TSAD システム。LangChain フレームワークと Gemini で実装される。
```
入力(テキスト時系列 + 時系列画像)
│
├→ Scanning Agent ─ Chain-of-Scanning(CoS)で異常タイプを推論
│ └ 出力: 点別 / 範囲別 / 不規則-点別 / 不規則-範囲別
│
├→ Planning Agent ─ 異常タイプに応じた検知戦略と使用ツール・モダリティを計画
│ └ 点別→従来手法(テキスト)+検証時に複合, 範囲別→MLLM(画像)
│
├→ Detection Agent ─ ツールセット(iForest, MLLM 等)を呼び出して異常検知
│
└→ Checking Agent ─ 予測を可視化し自己反省(self-reflection)で精度を再調整
└ 過検知・検知漏れを修正し出力を絞り込む
```
共有動的メモリ(Shared Dynamic Memory)が全エージェント間でコンテキストを共有する。
Table 4 の比較実験では TSAD-Agents が全異常タイプで既存手法を上回る。点別 F1 は iForest の 62.1% に対して 65.4%、範囲別 F1 は Prompting の 32.9% に対して 38.6%。アブレーション実験では CoS・各エージェントの除去がいずれも有意な性能低下をもたらし、各コンポーネントの貢献を確認している。
---
## 補足知見
- **高次元多変量時系列**: 変量数 M が増えると MLLM の性能が低下(Gemini: M=4 で F1=100%、M=36 で F1=33.2%)。変量を分割して複数画像にするスプリット手法が有効(M=100 でも F1=59.91)。
- **数値理解の限界**: MLLM は 9.11 > 9.9 を誤判定するなど、細粒度の数値推論が弱い。
- **LangChain 実装**: エージェントオーケストレーションに LangChain を採用、評価は NVIDIA RTX A6000(8 枚)。
---
## 関連・参照
- 著者: [[Xiongxiao Xu]] / [[Haoran Wang]] / [[Yueqing Liang]] / [[Philip S. Yu]] / [[Yue Zhao]] / [[Kai Shu]]
- 所属: [[Illinois Institute of Technology]] / [[Emory University]] / [[University of Illinois Chicago]] / [[University of Southern California]]
- 関連 MOC: [[LLM4SRE - MOC]] / [[Alert Handling Papers]]
- 直接比較した先行研究: arXiv:2411.02465(TAMA)、arXiv:2405.14755(SIGLLM)、arXiv:2405.15370(LLMAD)