ARFBench - yuuk1's Digital Garden

# ARFBench ## 定義 ARFBench(Anomaly Reasoning Framework Benchmark)は [[Datadog]] の内部テレメトリのみを出所とする時系列質問応答(TSQA)の多肢選択ベンチマーク。2025-03-07〜03-30 に解決された 63 件の本番インシデントから抽出した 142 系列・538 万点をもとに 750 問を生成する。([[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]]) ## 役割・位置づけ - 質問は 8 カテゴリ・3 ティアに整理される。Tier I = Presence(異常の有無、二値、111 問)、Tier II = Identification/Magnitude/Start Time/End Time/Categorization(単一系列の異常性質、306 問)、Tier III = Correlation/Leading-Lagging Indicator(2 系列間の関連推論、333 問)。高位ティアは下位の正しい推論に依存する。 - 系列は高変量(中央値 10.5・最大 2283)・長系列(中央値 367・最大 40969)で、LLM/VLM の入力表現を困難にする(Table 2)。 - 既存 TSQA ベンチマークに対し「本番由来 + 専門家アノテーション(インシデントタイムライン)+ 複数系列推論」を同時に満たす点が差別化(Table 1)。最も近い TelecomTS・Time-RA は複数系列推論を評価せず専門家アノテーションにも根ざさない。 - 構築は「オラクル」VLM による選択肢生成と暫定ラベル付け + LLM フィルタ + 著者の手動検証の半自動パイプライン。機微情報はクエリ文字列の LLM 要約で匿名化。 - <https://huggingface.co/datasets/Datadog/ARFBench> で公開、公開リーダーボードあり。最良 few-shot モデル GPT-5 で精度 62.7%・F1 51.9%、ハイブリッド [[Toto-1.0-QA-Experimental]] で精度 63.9%、Model-Expert Oracle で精度 87.2%・F1 82.8%。 ## 関連 - エンティティ: [[Datadog]](構築元)/ [[Toto-1.0-QA-Experimental]](本論文の最良モデル)/ [[Toto]] / [[Qwen3-VL]] / [[TelecomTS]](最も近い既存ベンチマーク) - ソース: [[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]] - 概念: [[時系列質問応答]] / [[異常検知]] / [[時系列基盤モデル]] / [[インシデント管理]] - 関連 MOC: [[Telemetry - MOC]] / [[時系列基盤モデル - MOC]] ## 出典 - [[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]]