![[Pasted image 20250502135358.png]]
![[Pasted image 20250502135412.png]]
paper: [[2021__ASE__Groot - An event-graph-based approach for root cause analysis in industrial settings]]
以下、記事「Groot: eBay’s Event-graph-based Approach for Root Cause Analysis」(Sep 30, 2021)を要約します。
- **背景と目的**
大規模なマイクロサービスシステムでは、異常検知と迅速な原因究明が可用性維持に不可欠です。従来のアプローチは、サービスやホスト単位でのグラフモデルを用いることが多く、メトリクスやログ、機械学習/ヒューリスティクスで因果関係を抽出していましたが、粒度や多様性に課題がありました ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)).
- **マイクロサービス特有の課題**
1. **運用の複雑性**:インフラ中心のSREとドメイン中心のSRE間での知識ギャップや重複作業
2. **スケールの複雑性**:数千のサービス間依存関係の増大による遠隔因果の特定困難
3. **監視の複雑性**:多種多様なログ・メトリクスや頻繁なデプロイ/設定変更の管理難度 ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)).
- **Groot の特徴**
1. **細粒度のイベントノード**:サービス/VMではなく「イベント」を因果グラフの基本ノードとし、詳細な文脈情報を反映。必要に応じて外部サービスの障害などを動的に追加可能 ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)).
2. **高い多様性**:パフォーマンスメトリクス、ステータスログ、開発者活動(コードデプロイなど)など幅広いイベント型をサポートし、SREチームが独自ルールを容易に組み込める文法を備える。結果のランキングも可視化可能 ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)).
- **設計とワークフロー**
Groot の流れは①サービス依存グラフ構築→②イベント因果グラフ構築→③根本原因ランキングの3段階。UI上で依存関係や因果リンク、詳細情報(生データや担当者連絡先など)を対話的に確認でき、オフラインでは日次でデータ収集・検証・知見蓄積を行います ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)).
- **動作例**
CheckoutサービスでAPIタイムアウトが発生した場合、従来法では依存サービスの警告数のみを用いて原因候補を絞りますが、Grootでは「Checkout APIタイムアウト→Service AのAPIタイムアウト→Service Cのレイテンシスパイク→DataCenter-A内のService Eのレイテンシスパイク→Service Eのコードデプロイ」を辿り、最終的にService Eのデプロイイベントを最有力原因と判断できます ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)).
- **評価結果**
eBay本番環境(5,000以上のマイクロサービス、毎日2.8兆スパン生成)でのテストでは、サービス障害事例において「トップ3内に真の原因を含む」精度が100%を達成。ベースライン(依存グラフのみ/非適応イベント方式)と比較して、精度・性能とも大きく上回りました ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)).
- **学びと今後**
1. 実運用への組み込みとSRE連携が普及の鍵
2. 関連アラートの統合やコミュニケーションツール連携など、垂直的機能強化が採用を後押し
3. 信頼性確保のためバックエンドの堅牢化が必須
4. モデル選択は精度・適応性・コストのトレードオフ要検討
5. 段階的に機械学習を取り入れつつ、現在はナレッジエンジニアリング中心で透明性を重視 ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)).
- **結論**
イベント駆動の因果グラフ構築と適応的ルール設定により、マイクロサービス環境で高精度かつ高効率な根本原因分析を実現。実データ(952件のインシデント)での評価でも優れた成果を示し、今後は学習可能な因果グラフ重み付けへの拡張を検討しています ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)).