## Memo
- IBM Research
## Memo with LLM
## Abstract
[[Distributed Tracing|分散トレーシング]]は、リクエスト実行の因果関係のあるエンドツーエンドのワークフローを記録することにより、クラウドにおけるパフォーマンス問題を診断するための基本的なツールとなっています。しかしながら、実運用ワークロードにおけるトレースは、パフォーマンスの変動を特定するために必要な広範なインスツルメンテーションにより、大きなオーバーヘッドをもたらす可能性があります。本論文では、オンライン確率的分散トレースシステムであるAstraeaを通して、トレースのコストとトレース内の「スパン」の有用性のトレードオフに取り組む。Astraeaはオンラインベイズ学習とマルチアームドバンディットフレームワークを組み合わせた我々の技術に基づいている。この定式化により、Astraeaは、正確な性能診断に必要な有用なインスツルメンテーションに向けてトレースを効果的に誘導することができる。Astraeaは、利用可能なインスツルメンテーションのわずか10~28%を使用してパフォーマンス変動を特定し、トレースのオーバーヘッド、ストレージ、計算コスト、トレース解析時間を大幅に削減します。