ChatTS - yuuk1's Digital Garden

# ChatTS 時系列を画像 MLLM の画像と同等のネイティブな多変量モダリティとして扱う初の TS-MLLM。Qwen2.5-14B-Instruct を、属性ベース合成時系列生成器と Time Series Evol-Instruct(TSEvol)で生成した完全合成データのみで fine-tuning する。Context-Aware Encoding(時系列パッチをテキストトークン位置に挿入)と Value-Preserved Time Series Normalization(min-max 正規化 + Value Scaling/Offset をテキストに含める)で、複数系列の文脈関係と数値情報を同時に保持する。Dataset A(525 問)・B(1,616 問)・MCQ2(100 問)での評価で GPT-4o(vision/text/agent)を alignment +46.0% / reasoning +25.8% で上回り、入力トークンは GPT-4o の 1/40〜1/15。([[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]]) - 提案: [[Zhe Xie]]・[[Zeyan Li]]・[[Xiao He]]・[[Longlong Xu]]・[[Xidao Wen]]・[[Tieying Zhang]]・[[Jianjun Chen]]・[[Rui Shi]]・[[Dan Pei]](Tsinghua/BNRist + ByteDance + BizSeer) - 発表: PVLDB Vol. 18, No. 8, 2385-2398, 2025(DOI:10.14778/3742728.3742735) - オープンソース: https://github.com/NetManAIOps/ChatTS - ベース LLM: [[Qwen2.5-14B-Instruct]](14B パラメータ、フルパラメータ SFT)。 - 属性プール: Trend 4 種・Periodicity 7 種・Noise 3 種・Local Fluctuation 19 種。メトリクス名は 567 種を事前定義。 - 訓練データ規模: UTS 35,000 + MTS-Shape 35,000 + MTS-Local 35,000 + TSEvol SFT 44,802 + IF 5,050。 - 時系列長: 64〜1024 の可変。 - 単純な 5 層 MLP エンコーダで充分。複雑な構造より「ネイティブ多変量モダリティ」自体が効く。 - 実応用例: Oracle DB の RCA(rulebook 適用)、AAPL Twitter の hot event 検出、NAB NYC taxi の周期 49.6 点検出。 - 著者自認の弱点: 完全合成データの限界、評価セットが 525 + 1,616 + 100 と小規模、生成タスク(text→時系列)未対応。 ## 関連 - 著者: [[Zhe Xie]] / [[Zeyan Li]] / [[Xiao He]] / [[Longlong Xu]] / [[Xidao Wen]] / [[Tieying Zhang]] / [[Jianjun Chen]] / [[Rui Shi]] / [[Dan Pei]] - 所属: [[Tsinghua University]] / [[BNRist]] / [[ByteDance]] / [[BizSeer]] - 関連概念: [[LLM時系列アプローチ]] / [[時系列マルチモーダルLLM]] / [[時系列推論]] / [[時系列質問応答]] / [[異常検知]] - 関連手法: [[TSEvol]] / [[LLMTime]] / [[LLMAD]] - ソース: [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]]