時系列データ生成 - yuuk1's Digital Garden

# 時系列データ生成 ## 定義時系列データ生成(Time Series Data Generation / Augmentation)は、既存の現実シード時系列から、統計的性質・グローバルトレンド・局所パターンを保持した合成時系列を生成する手法の総称である。主要な動機は (1) プライバシー制約による公開不可能データの共有代替、(2) ベンチマーク・評価に必要な大規模データの生成、(3) 機械学習モデルの訓練データ拡張。生成手法は大きく 4 カテゴリに分類される（Khelifati et al. 2023 の整理）: 1. **分解法**: トレンド・独立成分を抽出して新パターンを生成（系列数の拡張のみ） 2. **モデルベース拡張**: 統計モデル（ARIMA 等）で生成（系列長の拡張のみ、予測向き） 3. **時間ドメイン変換法**: ノイズ追加・加重平均等の変換（高相関系列のみ対応） 4. **生成モデル法**: GAN・HMM で系列数・長さ両方を拡張（精度・効率はモデルによる） (Source: [[@2023__PVLDB__TSM-Bench - Benchmarking Time Series Database Systems for Monitoring Applications]] §2.2) ## TS-LSH: GAN × LSH ハイブリッド手法 TSM-Bench が提案する **TS-LSH** は、GAN（DCGAN）と局所性敏感ハッシュ（LSH）を組み合わせた手法である。5 ステップのパイプライン: GAN 訓練 → 合成セグメント生成 → LSH テーブル構築 → LSH ルックアップ → セグメント選択・マージ。計算量は O(m^ρ · n)（ρ < 1）で準線形。先行手法 TS-Graph（グラフ構築が二次時間）との比較: - **データ品質**: Pearson 相関 0.8 (TS-LSH) vs 0.13 (TS-Graph) — 約 6× 改善 - **生成速度**: 平均 5.7× 高速 - **グローバルトレンド保持**: TS-Graph はセグメント間スムーズ遷移が時間シフトを生じさせ相関を低下させるが、TS-LSH は LSH による類似候補選択でグローバルトレンドを保持する (Source: [[@2023__PVLDB__TSM-Bench - Benchmarking Time Series Database Systems for Monitoring Applications]] §3.2, Figure 9a) ## 横断的知見 - **GAN 単独では「セグメント長の増大が指数的計算コスト増」という根本的制約がある**: DCGAN はセグメントを短く分割して訓練する設計だが、系列全体の長さをカバーしようとセグメントを長くすると GAN の 2 ニューラルネットワークの計算量が指数的に増大する。この制約を TS-LSH は「セグメントは短く保ち LSH で連結する」という設計で回避する。同様の GAN 制約は機械学習向けの時系列拡張（[[時系列基盤モデル]]の訓練データ生成）でも生じ、シード分割 + 構造的連結の設計パターンが有効だと示唆される。(Source: [[@2023__PVLDB__TSM-Bench - Benchmarking Time Series Database Systems for Monitoring Applications]] §3.2) - **合成データの品質が TSDB の圧縮ストレージ評価を歪める**: TSM-Bench §5.4.2 で検証したように、合成データの繰り返し率・欠損率・デルタ平均が TSDB の圧縮性能に直接影響する。TS-Graph が生成する時間シフト時系列は現実データと乖離した圧縮特性を示すため、ベンチマーク評価が不正確になる。合成データ品質の評価（Pearson・NMI・RMSE の 3 指標セット）をデータ生成手法評価に組み込むことが重要だ。(Source: [[@2023__PVLDB__TSM-Bench - Benchmarking Time Series Database Systems for Monitoring Applications]] §5.4.2) ## 未解決の問い - TSM-Bench の TS-LSH はユークリッド距離でセグメント類似性を測るが、水位系列は erratic（急激変化）特性を持つ。DTW（動的時間伸縮）や LCSS（最長共通部分列）を使った場合に品質はどう変わるか。 - GAN 訓練コストを回避する変分オートエンコーダ（VAE）や拡散モデルベースの時系列生成は TS-LSH と比較してどのようなトレードオフを持つか。 - [[時系列基盤モデル]]（Chronos・Time-MoE 等）の事前学習データにこのような合成データを混合する場合、KernelSynth（Chronos）との比較で何が優れているか。 ## 関連 - ソース: [[@2023__PVLDB__TSM-Bench - Benchmarking Time Series Database Systems for Monitoring Applications]] - 概念: [[時系列データベースベンチマーク]] / [[時系列基盤モデル]] / [[時系列トークナイゼーション]] - エンティティ: [[eXascaleInfolab]] / [[Abdelouahab Khelifati]] ## 出典 - [[@2023__PVLDB__TSM-Bench - Benchmarking Time Series Database Systems for Monitoring Applications]]（TS-LSH: GAN × LSH 時系列生成手法、TS-Graph 比較、データ品質評価）