@2025__arXiv__Cisco Time Series Model Technical Report

> [!abstract] 概要(arXiv abstract の日本語訳) > 我々は単変量のゼロショット予測器である Cisco Time Series Model を導入する。この時系列基盤モデルは、時系列モデルに多解像度入力を受け付けさせる汎用的なアーキテクチャ革新を、広く使われている decoder-only の時系列モデル(TimesFM)に適用した結果である。得られた多解像度の decoder-only モデルは 300B 点超の固有データ点で学習され、その半分超は観測(observability)ドメイン由来である。定量・定性の両評価は、得られたモデルが観測データセットで優れた性能を達成しつつ、標準的な汎用予測ベンチマーク(GIFT-Eval)でも非常に近い性能を保つことを示し、多解像度構造によってモデルが長コンテキスト入力に対してより正確な予測を行えるようになることを示唆する。 ## 論文情報 - タイトル: Cisco Time Series Model Technical Report - 著者: Liang Gou, Archit Khare, Praneet Pabolu, Prachi Patel, Joseph Ross, Hercy Shen, Yuhan (Ellen) Song, Jingze Sun(コア開発、姓のアルファベット順)/ Kristal Curtis, Vedant Dharnidharka, Abhinav Mathur, Hao Yang(支援・拡張)。全員 @cisco.com。Hercy Shen は Splunk でのインターン期間に貢献。 - 媒体: arXiv プレプリント(cs.LG / cs.AI / stat.ML)、2025 年 11 月 25 日投稿 - arXiv ID: 2511.19841 - コード: <https://github.com/splunk/cisco-time-series-model>(推論コード、Apache 2.0) - 重み: <https://huggingface.co/cisco-ai/cisco-time-series-model-1.0-preview>(Apache 2.0) ## 概要 Cisco Time Series Model は、transformer ベースの単変量ゼロショット予測の[[時系列基盤モデル]](TSFM)。粗い解像度(1 時間)と細かい解像度(1 分)のコンテキストを 1 本に連結して受け付ける**多解像度アーキテクチャ**を TimesFM に追加し、長コンテキストを効率的に使えるようにした。学習データの半分超を Splunk Observability Cloud の観測メトリクスが占め、観測ドメインのデータ操作原則も定式化する。観測データで競合 TSFM を上回り、汎用ベンチマーク GIFT-Eval では事前学習元と同等以上の性能を保つ。 ## 問題設定 - **入力**: 多解像度コンテキスト。粗い解像度の点列 $x_c \in \mathbb{R}^{512}$(直近 512 時間を 1 時間解像度で表現)と細かい解像度の点列 $x_f \in \mathbb{R}^{512}$(直近 512 分を 1 分解像度で表現)の組。両解像度の比は全入力で固定し、$K=60$ とする。 - **出力**: 細かい解像度の地平線(horizon)$y \in \mathbb{R}^{128}$(直後の 128 分)。 - **前提・データ**: ゼロショット予測。学習・fitting なしに未見の時系列の後続セグメントを予測する。観測メトリクスは年齢に応じて異なる解像度で保持される(細かいデータは「期限切れ」になり粗い要約に集約される)ことが多く、特に 1 分・1 時間解像度が永続化されやすい。本手法は最細解像度の全履歴が得られない場面でも、事前計算済みの rollup(粗い要約)を活用できる。 ## 提案手法 - **アーキテクチャ**(図3): 大半は TimesFM に従う(patching と padding、パッチ埋め込みの residual block、decoder-only transformer 層、un-embedding の residual block)。$F$ は正規化済み入力に作用する関数 $F: \mathbb{R}^{512} \times \mathbb{R}^{512} \to \mathbb{R}^{128}$。粗い解像度のコンテキストが細かい解像度のコンテキストに先行し、位置エンコーディングは使わない。新規要素は次の 2 つ。 - **特殊トークン(Special Token, ST)**: 粗・細の解像度トークン列の間に挿入する学習可能な表現(言語モデリングの特殊トークンの類推)。padding マスクには対応する 0 を入れる。トークン列は $[h_1,\dots,h_{16}, ST, h_{17},\dots,h_{32}]$ となる。「sequence space」で働く。 - **解像度埋め込み(Resolution Embeddings, RE)**: 各トークン $h_i$ に $r_i = \mathrm{RE}(z)$ を加算する($z=0$ が細かい解像度トークンと ST、$z=1$ が粗い解像度トークン)。「model space」で働き、TimesFM の frequency embedding に概念的に近い。 - **手法の詳細**: - **コンテキスト正規化**: $x_c$ と $x_f$ をそれぞれ独立に標準正規化する。各列の先頭 32 点の平均 $\mu$ と標準偏差 $\sigma$ を用いる。地平線の正規化には細かいコンテキストの統計を使う。推論時に逆正規化して予測を得る。 - **patching / tokenization**: 正規化済み入力を長さ `input_patch_len = 32` の非重複パッチに分割。各パッチ $u \in \mathbb{R}^{32}$ に residual block $g_{in}: \mathbb{R}^{32} \to \mathbb{R}^{1280}$ を適用($g_{in}(u)=W_o\phi(W_h u)+W_r u$、$\phi$ は SiLU)し、トークン $h_i \in \mathbb{R}^{1280}$ を得る。 - **出力**: 50 層の decoder-only transformer 層を通し、residual block $g_{out}: \mathbb{R}^{1280} \to \mathbb{R}^{128}$ で予測地平線長へ写像。 - **自己回帰的な多解像度デコード**: 1 デコードステップで $L=$ `output_patch_len` $=128$ 点の平均・分位点予測を生成。平均予測を細かいコンテキストに追記し、padding マスクには 0 を追記。粗いコンテキストの更新には、細かい予測の先頭 $K\lfloor L/K\rfloor$ 点を $K$ 点ごとに平均して追記する。 - **実装上の工夫**: 総パラメータ 500M。学習は TimesFM からの継続事前学習(continued pre-training, CPT)が最速で収束した(各種 freezing/unfreezing スケジュールやゼロからの学習より速い)。bias/norm/embedding は AdamW、隠れ層は Muon で最適化(学習率 5e-5 と 1e-4、いずれも Cosine Annealing で減衰)。コア当たりバッチサイズ 1024、$(5\sigma)^2$ 相当の loss clipping、weight decay 0.05、gradient clipping。損失は点予測の MSE と $q=0.1,\dots,0.9$ の分位点損失の合成。20 エポック学習し検証損失最小の checkpoint を選ぶ(多くで最良は 5〜10 エポック)。 **Figure 3: アーキテクチャ** ![[_attachments/arxiv-2511.19841/fig3-architecture.png]] (Figure 3. Architecture diagram illustrating Resolution Embeddings and Special Token に関するアーキテクチャを示す。) **Figure 4: ワークフロー** ![[_attachments/arxiv-2511.19841/fig4-workflow.png]] (Figure 4. Statistical deduplication pipeline に関する処理フローを示す。) **Figure 5: 図** ![[_attachments/arxiv-2511.19841/fig5-figure.png]] (Figure 5. 50 random samples from the largest cluster before deduplication を示す。) ## 新規性 - 既存の TSFM はコンテキストウィンドウが 512〜4,096 点(最新の TimesFM 2.5 でも 16,384 点)に制約され、長い履歴を活かせない。観測のように過去パターンが長期に持続するドメインでは致命的。 - 既存の多解像度アーキテクチャ(Pyraformer・Scaleformer・Pathformer・Multi-resolution time series transformer)は**同じ入力を複数解像度で処理する**点が共通で、長コンテキストには特に向かない。本研究は「粗い解像度のコンテキストを、細かい解像度の予測をより正確にするための資産」とみなす点で先行研究と異なる。 - 同じ時間幅を覆うのに、従来の多解像度アーキテクチャは 30,720 点(本手法の 30 倍)のコンテキスト長を要する。本手法は多解像度入力に直接作用することで長コンテキストを効率的に使い、直近の詳細と長期の文脈のトレードオフを改善する。 - 多解像度パターンは多くの TSFM に適用可能な汎用パターンとして提示される。あわせて、新ドメインへの TSFM 適応に有効な時系列データ操作(filtering/sampling/解像度処理)の原則を定式化した。 ## 実験設定 - **学習環境**: 公開 checkpoint の大規模学習は H200 GPU 64 基(8 ノード)で DDP、実効バッチサイズ 65,536。大バッチに合わせ学習率をノード数の平方根($\sqrt{8}$)倍。1 エポック約 30 時間(full precision)。 - **データ**: 学習データは 300B 点超で、構成比は 1 分解像度 observability 35% / 5 分解像度 observability 16.5% / GIFT-Eval 事前学習コーパス 29.5% / Chronos 事前学習コーパス 4.5% / 合成 14.5%。観測データは Splunk Observability Cloud のメトリクスサブシステムでの Splunk 自身の利用に由来し、約 400M 系列・13 か月分(1 分解像度、一部は 5 分に集約)。合成データは KernelSynth を使用。 - **データ操作**: 系列レベルの heuristic filtering(欠損過多を除外、last value extrapolation で短い欠損を補完、cumulative counter には差分演算子を適用)。ウィンドウレベルの filtering/downsampling(過剰な flat spot・少なすぎる固有値の除外、地平線とコンテキストの中央値からの最大絶対偏差の比に閾値、spectral entropy が大きいウィンドウの downsampling)。多様性の確保(データ源の混合、padding awareness、SimHash による統計的重複除去)。train/validation/test 分割は時間順かつ系列同一性を意識し、test は out-of-domain かつ in-the-future。 - **比較対象**: TimesFM-2.5、TimesFM-2.0、Chronos-2、Chronos-Bolt、Toto-1.0、AutoARIMA、Naive(観測データ)/ SeasonalNaive(GIFT-Eval)。単一解像度の TSFM には長さ 512 の細かいコンテキスト、または 1024 点の細かいコンテキストを与える 2 系統で比較。AutoARIMA はゼロショットでなく、コンテキストに $(p,d,q)$ を当てはめる。 - **評価指標**: MSE、MAE、MASE、sMAPE、MSIS($\alpha=0.05$)、CRPS。予測は中央値($q=0.5$)を使用。 ## 実験結果 - **観測データ(表1〜4)**: Cisco TSM (512, 512) は 1 分・5 分の両解像度、コンテキスト 512・1024 の全設定で、ほぼ全指標で競合 TSFM を上回る。例として 1 分解像度・コンテキスト 512(表1)で MAE 0.4788(次点 Chronos-2 0.6023)、MASE 0.4569(次点 TimesFM-2.0 0.6722)、CRPS 0.4126(次点 Chronos-2 0.4878)。Naive で正規化した値。 - **GIFT-Eval(表5・表6)**: TimesFM 2.0 の学習コーパスに含まれるデータセットを除いた「non-leaking」版で評価。コンテキスト ≥ 512 の長コンテキスト部分集合(表5)では TimesFM-2.0 を上回る(例 MAE 0.6980 対 0.7119、CRPS 0.5508 対 0.5680)。全体(表6)では TimesFM-2.5 や Chronos-2/Toto に一部劣るが、事前学習元 TimesFM 2.0 の能力を「壊していない」ことと長コンテキストでの改善を示す。 - **定性評価(図9〜13)**: 1 時間コンテキストが長いほど、強い周期性・適度なノイズ・鋸歯状・長期周期と短期トレンドが拮抗する系列で予測精度が上がる(図10〜12)。一方、1 時間コンテキストが短く急な遷移を伴う系列(図13)や、揮発性・不規則性の高い系列は長コンテキストでも難しい。図9 の高誤差象限は late-breaking change への適応の弱さを示す。 - **アブレーション(表7・表8)**: TimesFM 2.0 (512,512)(多解像度を単一解像度のように扱う)に対し、CONCAT(改変なし)/ RE のみ / ST のみ / RE+ST を比較。10B・35B スケールの 2 つの学習セットで実施。RE+ST(本手法)は CONCAT と同等以上の性能で、かつ収束が概して速い。ST のみ・RE のみは説明のつかない数値的不整合を示し、データ規模で性能が大きく変わって結論が出なかった。 **Table 6: データセット** ![[_attachments/arxiv-2511.19841/table6-dataset.png]] (Table 6. Filtered (non-leaking) GIFT-Eval benchmark, prediction length capped at 128; normalized by SeasonalNaive (except Seasona に関する評価データセットを示す。) **Figure 10: 精度評価** ![[_attachments/arxiv-2511.19841/fig10-accuracy.png]] (Figure 10. 精度評価の結果を示す。) ## 考察 - 長コンテキストの効用は系列の本質的複雑さに依存する。長い 1 時間コンテキストは周期性・トレンドのある系列で予測を改善するが、揮発性・不規則性の高い系列や急変動には依然弱い(図9・図13)。予測品質はコンテキスト長だけでなく信号の内在的複雑さで決まる。 - 多解像度構造により、直近の詳細(timeliness)と長期構造(accuracy)のトレードオフを良いバランスで取れる。これは観測のような運用シナリオで特に重要。 - 多解像度パターンは TimesFM 以外の多くの TSFM にも適用できると予想される。新ドメインのデータと既存 TSFM のアーキテクチャ改変を同時に取り込む道筋を示す。 ## 強み / 弱点・課題 - **強み**: (1) 長コンテキストを 30 分の 1 の系列長で効率的に扱える多解像度パターン。(2) 事前計算済み rollup を活用でき、最細解像度の全履歴が不要。(3) 観測ドメインのデータ操作原則(filtering/sampling/SimHash 重複除去)を体系化。(4) 重み・推論コードを Apache 2.0 で公開。(5) 汎用ベンチマークの能力を保ちつつ観測ドメインで改善する継続事前学習の道筋。 - **弱点・課題(論文が述べるもの)**: (1) 特殊トークンの固定配置は硬直的で、一部入力では非効率な圧縮になりうる(例: 24 時間履歴では $x_c$ の大半が padding)。複数の特殊トークン・解像度埋め込みで 3 解像度以上を融合する拡張は未着手(§2.4)。(2) ST のみ・RE のみのアブレーションが説明のつかない数値的不整合を示し、結論不能だった(§4.5)。(3) late-breaking change(急変動)・短コンテキスト・高揮発性の系列で予測が劣化する(図9・図13)。(4) GIFT-Eval 全体では一部競合に劣る(表6)。