BOOM - yuuk1's Digital Garden

# BOOM ## 定義 BOOM(Benchmark of Observability Metrics)は [[Datadog]] が公開した、観測時系列予測のための大規模なオープンベンチマーク。2,807個の異なる多変量時系列・約3.5億観測点からなり、全データが実運用の分散システム監視由来の観測メトリクスである。([[@2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]]) ## 役割・位置づけ - 規模は汎用ベンチマーク GIFT-Eval の約2倍の総観測点(350M vs 158M)。系列数は少ないが(2,807 vs 144K)、系列あたりの変量の中央値は60と高次元(GIFT-Eval は1)。 - ドメイン分類: Application Usage(41.3%)/ Infrastructure(34.4%)/ Database(29.3%)/ Networking(10.0%)/ Security(0.3%)。LLM で初期ラベル付けし人手で検証。 - 訓練データ(Toto, 本番環境)との汚染防止のため、評価データは別のステージング環境から取得。顧客データを除く自社内部監視のみ。 - 評価は GIFT-Eval プロトコル準拠(MASE・CRPS を Seasonal Naive 正規化)だが、定数部分列対策で集約に shifted geometric mean を採用。アクセスを容易にするための小規模部分集合 BOOMLET も提供。 - 統計的特性(§4.3): ACF・ARCH-LM・spectral entropy・KPSS・flat spots・skew のいずれも汎用 benchmark より極端で、観測データの非定常性・不規則性・裾の重さを反映。 - データ・評価コードは Apache 2.0 で公開(<https://huggingface.co/datasets/Datadog/BOOM>)。 ## Toto 2.0 での評価結果 Toto 2.0(arXiv:2605.20119)の評価において BOOM を用いた比較実験が実施され、Toto 2.0 の全 5 サイズ(4M・22M・122M・313M・1B・2.5B から主要 5 サイズ)が競合モデルを全サイズで上回り、パレートフロンティア上に位置することが示された。([[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]]) | Toto 2.0 サイズ | CRPS rank(BOOM) | |---|---| | 2.5B | 3.88 | | 1B | 3.96 | | 313M | 4.26 | | 122M | 5.53 | | 22M | 7.17 | 全サイズがパレートフロンティア上に位置し、スケーリングによる単調な性能改善がBOOM 上でも確認された。 ## 関連 - エンティティ: [[Datadog]](公開元)/ [[Toto]](同時公開のモデル)/ [[TIME]](汚染耐性ベンチマーク、BOOM と相補的) - ソース: [[@2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]] / [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]] - 概念: [[時系列基盤モデル]] - 関連 MOC: [[時系列基盤モデル - MOC]] / [[異常検知 - MOC]] / [[Telemetry - MOC]] ## 出典 - [[@2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]] - [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]](Toto 2.0 の全 5 サイズがパレートフロンティア上)