# TraceArk
[[Microsoft Research]] と [[Microsoft|Microsoft 365]] および南方科技大学(SUSTech)が共同開発したアクショナブル性能異常アラーティングシステム。[[Microsoft]] Exchange サービスの本番環境で 4 ヶ月間稼働した(Source: [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]])。
## 概要
TraceArk は 3 フェーズで構成される:
1. **トレース前処理**: 1% ランダムサンプリング → ExL(排他的レイテンシ)基軸 → サービス/オペレーション/パスの 3 粒度集約
2. **異常評価とアラーティング**: ValueScore・ContinueScore・TrendScore(3σ 基準)・NormalizedCount・MaxLatency・Overhead の 6 特徴量を XGBoost(サブ木=3)で分類
3. **フィードバック機構**: Kmeanpp 戦略で多様サンプルをエンジニアに提示 → 半教師あり学習で閾値を継続更新
## 本番実績
- Microsoft Exchange(数百マイクロサービス・O(100) データセンター・O(1B) トレース/日)に導入
- 4 ヶ月間安定稼働(2022 年 6〜10 月)
- 直近数十日間で適合率 0.9068 を達成(従来手法の 2.38 倍、従来手法の適合率は 0.38)
- ランタイムオーバーヘッド: 平均 2690.59 秒(1 時間以内の要件を満たす)
(Source: §V-A, [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]])
## 関連
- 論文: [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]]
- 開発: [[Yuqun Zhang]] / [[Minghua Ma]] / [[Saravan Rajmohan]] / [[Qingwei Lin]]
- 所属組織: [[Microsoft Research]] / [[Microsoft]] / [[Southern University of Science and Technology]]
- 関連概念: [[アラート管理]] / [[異常検知]] / [[分散トレーシング]]