## Memo - [[DDS Lab]]からの論文。IEEE CLOUD2024のベストペーパー。 ## Memo with LLM ## Abstract [[Distributed Tracing|分散トレーシング]]は、クラウドベースおよびデータセンター・システムのモニタリングにおける基本的な要素として機能します。これは、システムの依存関係やパフォーマンスのボトルネックを理解するために不可欠です。計算とストレージのオーバーヘッドを軽減するために、ほとんどのトレースフレームワークは、必然的に重複と冗長な情報をキャプチャする均一なサンプリング戦略を採用しています。より高度な手法では、より情報量の多いトレースにサンプリングを偏らせるために、学習ベースのアプローチを採用している。しかしながら、既存の方法は、トレースサンプリングの本番展開に不可欠なトレースデータの高次元で動的な性質を考慮するには不十分である。これらの実用的な課題に対処するために、本論文では、分散トレースのためのスケーラブルでストリーミングなサンプラーであるTraceMeshを紹介します。TraceMeshは、Locality-Sensitivity Hashing (LSH)を採用し、トレースの類似性を保持しながら低次元空間にトレースを投影することで、サンプリング効率を向上させます。このプロセスにおいて、TraceMeshは以前には見られなかったトレースの特徴を統一的かつ合理的な方法で収容します。その後、TraceMeshは進化的クラスタリングによりトレースをサンプリングし、繰り返しトレースの過剰サンプリングを避けるためにサンプリング決定を動的に調整する。提案手法は、オープンソースマイクロサービスベンチマークと本番サービスシステムの両方から収集されたトレースデータを用いて評価される。実験結果は、TraceMeshがサンプリング精度と効率性の両方において、最先端の手法を大幅に上回ることを示している。