時系列クラスタリング - yuuk1's Digital Garden

# 時系列クラスタリング ## 定義時系列クラスタリング（time-series clustering）は、時系列データを複数の同質なグループに分割し、各グループがデータ中の特徴的なパターンや構造を表現するようにする教師なしタスクである。時系列解析の基幹タスクとして、教師なしデータ探索を可能にするとともに、異常検知・分類・類似度検索等の他タスクのサブルーチンとして頻繁に用いられる。伝統的なクラスタリング手法を時系列に適用する際の課題は、系列内の時間ステップ間の値の相互依存性にあり、距離尺度の選択がクラスタリング品質を大きく左右する。([[@2025__PVLDB__Time-Series Clustering - A Comprehensive Study of Data Mining, Machine Learning, and Deep Learning Methods]], [[@2016__SIGMOD Record__k-Shape - Efficient and Accurate Clustering of Time Series]]) 手法は大きく3層に分かれる: 1. **生データベース手法**: 生の時系列に直接作用し、距離尺度や重心計算を工夫する。分割型(k-AVG、k-Shape)、カーネルベース、密度ベース、階層型、分布ベースの5クラス 2. **モデル/特徴ベース手法**: 時系列を表現に変換してからクラスタリングする。シェイプレットベース、半教師あり、モデルベースの3クラス 3. **深層学習手法**: オートエンコーダや対照学習で表現を学習する。既存深層学習手法と基盤モデルの2クラス ## 距離尺度時系列クラスタリングの品質は距離尺度に大きく依存する。主要な距離尺度は以下の通りである。 - **ユークリッド距離（ED）**: 最も単純で高速だが、位相ずれに対する不変性がない。精度は他の尺度に統計的有意に劣る。([[@2016__SIGMOD Record__k-Shape - Efficient and Accurate Clustering of Time Series]]) - **動的時間伸縮（DTW）**: 非線形（局所的）整列による位相不変性を提供する。$O(m^2)$ の計算量が課題 - **制約付き DTW（cDTW）**: Sakoe-Chiba バンドでワーピング窓を制約し、DTW よりやや高速・高精度。窓幅のチューニングが必要 - **形状ベース距離（SBD）**: 正規化相互相関に基づく距離尺度。FFT により $O(m \log m)$ で計算可能、パラメータフリー。精度は cDTW と統計的有意差なし。([[@2016__SIGMOD Record__k-Shape - Efficient and Accurate Clustering of Time Series]]) ## 横断的知見 - **10年間の進歩の幻想**: Paparrizos+ 2025 の84手法・128データセット評価により、2015年に提案された k-Shape を統計的に有意に上回る手法が10年間で存在しないことが実証された。これは先行ベンチマークが(1)バグのある実装(tslearn の k-Shape)、(2)不公平なパラメータ設定、(3)限定的なデータセット選択に依存していたため、誤った結論を蓄積した結果である。分野全体のベンチマーキング方法論の根本的欠陥が「進歩の幻想」を生んだ。(Source: [[@2025__PVLDB__Time-Series Clustering - A Comprehensive Study of Data Mining, Machine Learning, and Deep Learning Methods]]) - **クラスタリング手法の選択は距離尺度と同程度に重要**: k-Shape 原論文（2015）は、「距離尺度の選択がクラスタリング手法の選択より重要」という当時の通説に反し、手法の選択も同等に重要であることを 48 データセット・20 手法の統計的比較で示した。この知見は 2025 年のサーベイでも追認されており、距離尺度だけでなくセントロイド計算法の適切な設計がスケーラブル手法の精度を左右することが裏付けられた。(Source: [[@2016__SIGMOD Record__k-Shape - Efficient and Accurate Clustering of Time Series]], [[@2025__PVLDB__Time-Series Clustering - A Comprehensive Study of Data Mining, Machine Learning, and Deep Learning Methods]]) - **相互相関の過小評価**: 相互相関は信号処理で広く用いられるにもかかわらず、時系列距離尺度としてはほぼ採用されていなかった（9 尺度の評価でも 48 尺度の評価でも未検討）。k-Shape 原論文が適切な正規化を示したことで SBD として実用化され、2025 年のサーベイでも SBD が最強のスケーラブル手法の基盤であり続けている。(Source: [[@2016__SIGMOD Record__k-Shape - Efficient and Accurate Clustering of Time Series]], [[@2025__PVLDB__Time-Series Clustering - A Comprehensive Study of Data Mining, Machine Learning, and Deep Learning Methods]]) ## 未解決の問い - 多変量時系列クラスタリングにおいても「進歩の幻想」は同様に存在するか。Paparrizos+ 2025 は単変量のみを評価した - k-Shape の系列長に対する O(T^3) の計算量制約を克服する手法はあるか。現状で長系列（T > 2,844）への適用は非実用的 - 深層学習の対照学習アプローチ（RES-CNN + CNRV）の正例・負例サンプリング戦略の改善で k-Shape を超えられるか - $k$ が未知の実応用シナリオにおけるクラスタリング手法の性能比較はどうなるか。UCR 評価では真の $k$ を使用 - 産業規模のデータ（数百万系列、系列長 10,000 以上）における実用的な最良手法は何か - k-Shape の複数表現への拡張（平滑化等のノイズ削減変換を活用する手法）は精度をどの程度改善するか（k-Shape 原論文が今後の方向性として言及） - 大域的整列（SBD）と局所的整列（DTW）の使い分けの指針: どのようなデータ特性で一方が他方を上回るかの体系的な知見は不足している ## 関連 - 手法: [[John Paparrizos]]（k-Shape 原著者）/ [[Luis Gravano]]（共著者） - データセット: [[UCR Time Series Archive]] - 接続概念: [[異常検知]]（クラスタリングベースの異常検知は Chandola 2009 の6技法群の一つ）/ [[時系列基盤モデル]]（CHRONOS・OFA・MOMENT がクラスタリングで評価された） - MOC: [[structures/時系列分析.MOC|時系列分析 MOC]]（存在する場合） ## 出典 - [[@2025__PVLDB__Time-Series Clustering - A Comprehensive Study of Data Mining, Machine Learning, and Deep Learning Methods]] - [[@2016__SIGMOD Record__k-Shape - Efficient and Accurate Clustering of Time Series]]