## Memo ![[Pasted image 20241119120806.png]] - スパンの15%が全体の80%を占めている。 ## Memo with LLM ## Abstract 分散トレーシングは、リクエスト実行の因果関係のあるエンドツーエンドのワークフローを記録することで、クラウドにおけるパフォーマンス問題を診断するための基本的なツールとなっています。 しかし、本番環境でワークロードをトレースすることは、パフォーマンスの変動を特定するために必要な広範なインスツルメンテーションにより、大きなオーバーヘッドをもたらす可能性があります。 本論文では、オンライン確率的分散トレースシステムであるAstraeaを通して、トレースのコストとトレース内の「スパン」の有用性の間のトレードオフに取り組む。 Astraeaは、オンラインベイズ学習とマルチアームドバンディットフレームワークを組み合わせた我々の技術に基づいている。 この定式化により、Astraeaは、正確な性能診断に必要な有用なインスツルメンテーションに向けて効果的にトレースを誘導することができます。 Astraeaは、利用可能なインスツルメンテーションの20-35%のみを使用してパフォーマンス変動を特定し、トレースのオーバーヘッド、ストレージ、計算コスト、トレース解析時間を大幅に削減します。