## Memo
- [[NetManAIOps]]の論文
## Abstract
高速でスケーラブルな解析技術は、データ解析においてリアルタイムかつインタラクティブな体験を可能にする技術であるため、ビッグデータ時代においてますます重要性を増しています。時系列は多様な応用分野で広く利用されています。時系列インスタンスの数が多く(例えば数百万)、各時系列インスタンスの次元が高い(例えば数千)ため、大規模な時系列に対してクラスタリングを行うことは困難であり、インタラクティブな探索をサポートするためにリアルタイムで行うことはさらに困難である。
本論文では、大規模時系列を高速かつ高品質に自動クラスタリングする新しいエンドツーエンド時系列クラスタリングアルゴリズムであるYADINGを提案する。具体的には、YADINGは、入力データセットのサンプリング、サンプリングされたデータセットに対するクラスタリングの実施、サンプリングされたデータセットに対して生成されたクラスタへの残りの入力データの割り当ての3つのステップから構成される。特に、サンプルサイズの下限と上限について理論的な証明を行い、YADINGの高い性能を保証するだけでなく、入力データセットとサンプルされたデータセット間の分布の一貫性を保証する。また、類似度指標として1ノルムを、クラスタリング手法として多密度アプローチを選択しています。この選択により、位相摂動やランダムノイズによる時系列の変動に対するYADINGの頑健性が理論的に保証される。
評価結果では、典型的な規模のデータセット(それぞれ1,000次元の10万時系列)において、YADINGはサンプリングベースの最新クラスタリングアルゴリズムDENCLUE 2.0よりも約40倍、[[DBSCAN]]やCLARANSよりも約1,000倍速いことが実証されています。また、YADINGはマイクロソフト社の製品チームによって、サービスのパフォーマンス分析に利用されています。この論文では、そのような使用例のうちの2つを紹介します。
[[2015__VLDB__YADING - Fast Clustering of Large-Scale Time Series Data__translations]]