# TraceArk [[Microsoft Research]] と [[Microsoft|Microsoft 365]] および南方科技大学(SUSTech)が共同開発したアクショナブル性能異常アラーティングシステム。[[Microsoft]] Exchange サービスの本番環境で 4 ヶ月間稼働した(Source: [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]])。 ## 概要 TraceArk は 3 フェーズで構成される: 1. **トレース前処理**: 1% ランダムサンプリング → ExL(排他的レイテンシ)基軸 → サービス/オペレーション/パスの 3 粒度集約 2. **異常評価とアラーティング**: ValueScore・ContinueScore・TrendScore(3σ 基準)・NormalizedCount・MaxLatency・Overhead の 6 特徴量を XGBoost(サブ木=3)で分類 3. **フィードバック機構**: Kmeanpp 戦略で多様サンプルをエンジニアに提示 → 半教師あり学習で閾値を継続更新 ## 本番実績 - Microsoft Exchange(数百マイクロサービス・O(100) データセンター・O(1B) トレース/日)に導入 - 4 ヶ月間安定稼働(2022 年 6〜10 月) - 直近数十日間で適合率 0.9068 を達成(従来手法の 2.38 倍、従来手法の適合率は 0.38) - ランタイムオーバーヘッド: 平均 2690.59 秒(1 時間以内の要件を満たす) (Source: §V-A, [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]]) ## 関連 - 論文: [[@2023__ICSE-SEIP__TraceArk - Towards Actionable Performance Anomaly Alerting for Online Service Systems]] - 開発: [[Yuqun Zhang]] / [[Minghua Ma]] / [[Saravan Rajmohan]] / [[Qingwei Lin]] - 所属組織: [[Microsoft Research]] / [[Microsoft]] / [[Southern University of Science and Technology]] - 関連概念: [[アラート管理]] / [[異常検知]] / [[分散トレーシング]]