## Memo ## Memo with LLM ### 論文情報 - **論文のタイトル**: EXIST: Enabling Extremely Efficient Intra-Service Tracing Observability in Datacenters - **著者と所属**: - Xinkai Wang, Xiaofeng Hou, Chao Li, Yuancheng Li, Du Liu, Quan Chen, Minyi Guo (Shanghai Jiao Tong University) - Guoyao Xu, Guodong Yang, Liping Zhang (Alibaba Group) - Yuemin Wu, Xiaopeng Yuan (Alibaba Cloud) - **カンファレンス/ジャーナル名**: Proceedings of the 30th ACM International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS 2025) - **発表年**: 2025 ### 論文概要 本論文では、データセンターにおける極めて効率的なサービス内トレーシング可観測性を実現するEXISTシステムを提案している。既存手法の5-18%のオーバーヘッドに対し、パーミルレベルの極低オーバーヘッドでサービス内実行トレースを取得する。EXISTは市販のハードウェアトレーシング機能を活用し、既存技術比2-10倍の効率向上と90%以上の精度を実現している。 ### 詳細解説 #### 問題設定 - **入力**: マイクロサービスアーキテクチャにおけるアプリケーション実行 - **出力**: サービス内実行トレース(関数呼び出し、実行時間、イベント因果関係等) - **必要なデータ**: RPC レベルのサービス間通信データとアプリケーションレベルのサービス内実行データ - **制約**: 既存手法では5-10%(最悪18%)の時間オーバーヘッドが発生し、実用性に課題 #### 提案手法 EXISTは3つの協調モジュールで構成される: 1. **高コスト制御操作の排除**: 観測対象アプリケーションの性能保証のため、コストの高いトレーシング制御操作を特定・除去 2. **動的バッファ割り当て**: アプリケーション状態に基づいて限られたトレースバッファ領域を動的に配分 3. **クラスター レベル最適化**: オーケストレーションによりトレースカバレッジを最適化 市販のハードウェアトレーシング機能([[Intel PT]]等)を基盤とし、ソフトウェア側での最適化を組み合わせてパーミルレベルのオーバーヘッドを実現。 #### 新規性 - 既存のソフトウェアベーストレーシング手法とは異なり、ハードウェア支援を活用した極低オーバーヘッドアプローチ - 3つの協調モジュールによる包括的最適化フレームワーク - 実用的データセンター環境での展開を考慮した設計 #### 実験設定 - **データセット**: ベンチマークアプリケーションと実世界のアプリケーション - **評価指標**: - 効率性改善(既存技術との比較) - トレーシング精度(完全トレーシング参照との比較) - 時間オーバーヘッド #### 実験結果 - **効率改善**: 既存技術と比較して2-10倍の効率向上を達成 - **精度**: 完全なトレーシング参照と比較して90%以上の精度を維持 - **オーバーヘッド**: パーミルレベル(1‰以下)の極低オーバーヘッドを実現 EXISTにより極めて効率的なサービス内トレーシング可観測性が実現され、より説明可能なデータセンター管理が可能となることを実証した。 ## Abstract アプリケーションの挙動を完全に理解するためには、イベントの因果関係を正確に推論するために、RPCレベルのトレーシングによるサービス間通信データと、アプリケーションレベルのトレーシングによるサービス内実行トレースの両方を取得する必要があります。しかし、既存のサービス内トレーシング手法の追跡対象アプリケーションに対する平均的な時間オーバーヘッドは一般的に約5-10%であり、最悪の場合は18%に達することもあります。共有・高負荷データセンターにおいて実用的なサービス内トレーシングを実現するためには、パーミルレベルのオーバーヘッドで極めて効率的なトレーシングを実現しなければなりません。本研究では、市販のハードウェアトレーシング機能に基づく極めて効率的なサービス内トレーシングシステムEXISTを提案します。EXISTは3つの協調モジュールから構成され、極めて低いオーバーヘッドに向けた最適なトレードオフを追求します。まず、高コストなトレーシング制御操作を特定・排除し、観測対象アプリケーションの性能を保証します。次に、アプリケーションの状態に基づいて限られたトレースバッファ領域を動的に割り当てます。第三に、クラスターレベルのオーケストレーションでトレースカバレッジを最適化します。ベンチマークおよび実世界のアプリケーションでEXISTを実装・評価した結果、既存技術と比較して2-10倍の効率向上と、完全なトレーシング参照と比較して90%以上の精度を実現しました。極めて効率的なサービス内トレーシング可観測性により、より説明可能なデータセンター管理を実現できます。