# ARFBench
## 定義
ARFBench(Anomaly Reasoning Framework Benchmark)は [[Datadog]] の内部テレメトリのみを出所とする時系列質問応答(TSQA)の多肢選択ベンチマーク。2025-03-07〜03-30 に解決された 63 件の本番インシデントから抽出した 142 系列・538 万点をもとに 750 問を生成する。([[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]])
## 役割・位置づけ
- 質問は 8 カテゴリ・3 ティアに整理される。Tier I = Presence(異常の有無、二値、111 問)、Tier II = Identification/Magnitude/Start Time/End Time/Categorization(単一系列の異常性質、306 問)、Tier III = Correlation/Leading-Lagging Indicator(2 系列間の関連推論、333 問)。高位ティアは下位の正しい推論に依存する。
- 系列は高変量(中央値 10.5・最大 2283)・長系列(中央値 367・最大 40969)で、LLM/VLM の入力表現を困難にする(Table 2)。
- 既存 TSQA ベンチマークに対し「本番由来 + 専門家アノテーション(インシデントタイムライン)+ 複数系列推論」を同時に満たす点が差別化(Table 1)。最も近い TelecomTS・Time-RA は複数系列推論を評価せず専門家アノテーションにも根ざさない。
- 構築は「オラクル」VLM による選択肢生成と暫定ラベル付け + LLM フィルタ + 著者の手動検証の半自動パイプライン。機微情報はクエリ文字列の LLM 要約で匿名化。
- <https://huggingface.co/datasets/Datadog/ARFBench> で公開、公開リーダーボードあり。最良 few-shot モデル GPT-5 で精度 62.7%・F1 51.9%、ハイブリッド [[Toto-1.0-QA-Experimental]] で精度 63.9%、Model-Expert Oracle で精度 87.2%・F1 82.8%。
## 関連
- エンティティ: [[Datadog]](構築元)/ [[Toto-1.0-QA-Experimental]](本論文の最良モデル)/ [[Toto]] / [[Qwen3-VL]] / [[TelecomTS]](最も近い既存ベンチマーク)
- ソース: [[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]]
- 概念: [[時系列質問応答]] / [[異常検知]] / [[時系列基盤モデル]] / [[インシデント管理]]
- 関連 MOC: [[Telemetry - MOC]] / [[時系列基盤モデル - MOC]]
## 出典
- [[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]]