## Memo
## Memo with LLM
### 論文情報
- **論文のタイトル**: EXIST: Enabling Extremely Efficient Intra-Service Tracing Observability in Datacenters
- **著者と所属**:
- Xinkai Wang, Xiaofeng Hou, Chao Li, Yuancheng Li, Du Liu, Quan Chen, Minyi Guo (Shanghai Jiao Tong University)
- Guoyao Xu, Guodong Yang, Liping Zhang (Alibaba Group)
- Yuemin Wu, Xiaopeng Yuan (Alibaba Cloud)
- **カンファレンス/ジャーナル名**: Proceedings of the 30th ACM International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS 2025)
- **発表年**: 2025
### 論文概要
本論文では、データセンターにおける極めて効率的なサービス内トレーシング可観測性を実現するEXISTシステムを提案している。既存手法の5-18%のオーバーヘッドに対し、パーミルレベルの極低オーバーヘッドでサービス内実行トレースを取得する。EXISTは市販のハードウェアトレーシング機能を活用し、既存技術比2-10倍の効率向上と90%以上の精度を実現している。
### 詳細解説
#### 問題設定
- **入力**: マイクロサービスアーキテクチャにおけるアプリケーション実行
- **出力**: サービス内実行トレース(関数呼び出し、実行時間、イベント因果関係等)
- **必要なデータ**: RPC レベルのサービス間通信データとアプリケーションレベルのサービス内実行データ
- **制約**: 既存手法では5-10%(最悪18%)の時間オーバーヘッドが発生し、実用性に課題
#### 提案手法
EXISTは3つの協調モジュールで構成される:
1. **高コスト制御操作の排除**: 観測対象アプリケーションの性能保証のため、コストの高いトレーシング制御操作を特定・除去
2. **動的バッファ割り当て**: アプリケーション状態に基づいて限られたトレースバッファ領域を動的に配分
3. **クラスター レベル最適化**: オーケストレーションによりトレースカバレッジを最適化
市販のハードウェアトレーシング機能([[Intel PT]]等)を基盤とし、ソフトウェア側での最適化を組み合わせてパーミルレベルのオーバーヘッドを実現。
#### 新規性
- 既存のソフトウェアベーストレーシング手法とは異なり、ハードウェア支援を活用した極低オーバーヘッドアプローチ
- 3つの協調モジュールによる包括的最適化フレームワーク
- 実用的データセンター環境での展開を考慮した設計
#### 実験設定
- **データセット**: ベンチマークアプリケーションと実世界のアプリケーション
- **評価指標**:
- 効率性改善(既存技術との比較)
- トレーシング精度(完全トレーシング参照との比較)
- 時間オーバーヘッド
#### 実験結果
- **効率改善**: 既存技術と比較して2-10倍の効率向上を達成
- **精度**: 完全なトレーシング参照と比較して90%以上の精度を維持
- **オーバーヘッド**: パーミルレベル(1‰以下)の極低オーバーヘッドを実現
EXISTにより極めて効率的なサービス内トレーシング可観測性が実現され、より説明可能なデータセンター管理が可能となることを実証した。
## Abstract
アプリケーションの挙動を完全に理解するためには、イベントの因果関係を正確に推論するために、RPCレベルのトレーシングによるサービス間通信データと、アプリケーションレベルのトレーシングによるサービス内実行トレースの両方を取得する必要があります。しかし、既存のサービス内トレーシング手法の追跡対象アプリケーションに対する平均的な時間オーバーヘッドは一般的に約5-10%であり、最悪の場合は18%に達することもあります。共有・高負荷データセンターにおいて実用的なサービス内トレーシングを実現するためには、パーミルレベルのオーバーヘッドで極めて効率的なトレーシングを実現しなければなりません。本研究では、市販のハードウェアトレーシング機能に基づく極めて効率的なサービス内トレーシングシステムEXISTを提案します。EXISTは3つの協調モジュールから構成され、極めて低いオーバーヘッドに向けた最適なトレードオフを追求します。まず、高コストなトレーシング制御操作を特定・排除し、観測対象アプリケーションの性能を保証します。次に、アプリケーションの状態に基づいて限られたトレースバッファ領域を動的に割り当てます。第三に、クラスターレベルのオーケストレーションでトレースカバレッジを最適化します。ベンチマークおよび実世界のアプリケーションでEXISTを実装・評価した結果、既存技術と比較して2-10倍の効率向上と、完全なトレーシング参照と比較して90%以上の精度を実現しました。極めて効率的なサービス内トレーシング可観測性により、より説明可能なデータセンター管理を実現できます。