![[Pasted image 20250502135358.png]] ![[Pasted image 20250502135412.png]] paper: [[2021__ASE__Groot - An event-graph-based approach for root cause analysis in industrial settings]] 以下、記事「Groot: eBay’s Event-graph-based Approach for Root Cause Analysis」(Sep 30, 2021)を要約します。 - **背景と目的** 大規模なマイクロサービスシステムでは、異常検知と迅速な原因究明が可用性維持に不可欠です。従来のアプローチは、サービスやホスト単位でのグラフモデルを用いることが多く、メトリクスやログ、機械学習/ヒューリスティクスで因果関係を抽出していましたが、粒度や多様性に課題がありました ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)). - **マイクロサービス特有の課題** 1. **運用の複雑性**:インフラ中心のSREとドメイン中心のSRE間での知識ギャップや重複作業 2. **スケールの複雑性**:数千のサービス間依存関係の増大による遠隔因果の特定困難 3. **監視の複雑性**:多種多様なログ・メトリクスや頻繁なデプロイ/設定変更の管理難度 ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)). - **Groot の特徴** 1. **細粒度のイベントノード**:サービス/VMではなく「イベント」を因果グラフの基本ノードとし、詳細な文脈情報を反映。必要に応じて外部サービスの障害などを動的に追加可能 ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)). 2. **高い多様性**:パフォーマンスメトリクス、ステータスログ、開発者活動(コードデプロイなど)など幅広いイベント型をサポートし、SREチームが独自ルールを容易に組み込める文法を備える。結果のランキングも可視化可能 ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)). - **設計とワークフロー** Groot の流れは①サービス依存グラフ構築→②イベント因果グラフ構築→③根本原因ランキングの3段階。UI上で依存関係や因果リンク、詳細情報(生データや担当者連絡先など)を対話的に確認でき、オフラインでは日次でデータ収集・検証・知見蓄積を行います ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)). - **動作例** CheckoutサービスでAPIタイムアウトが発生した場合、従来法では依存サービスの警告数のみを用いて原因候補を絞りますが、Grootでは「Checkout APIタイムアウト→Service AのAPIタイムアウト→Service Cのレイテンシスパイク→DataCenter-A内のService Eのレイテンシスパイク→Service Eのコードデプロイ」を辿り、最終的にService Eのデプロイイベントを最有力原因と判断できます ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)). - **評価結果** eBay本番環境(5,000以上のマイクロサービス、毎日2.8兆スパン生成)でのテストでは、サービス障害事例において「トップ3内に真の原因を含む」精度が100%を達成。ベースライン(依存グラフのみ/非適応イベント方式)と比較して、精度・性能とも大きく上回りました ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)). - **学びと今後** 1. 実運用への組み込みとSRE連携が普及の鍵 2. 関連アラートの統合やコミュニケーションツール連携など、垂直的機能強化が採用を後押し 3. 信頼性確保のためバックエンドの堅牢化が必須 4. モデル選択は精度・適応性・コストのトレードオフ要検討 5. 段階的に機械学習を取り入れつつ、現在はナレッジエンジニアリング中心で透明性を重視 ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)). - **結論** イベント駆動の因果グラフ構築と適応的ルール設定により、マイクロサービス環境で高精度かつ高効率な根本原因分析を実現。実データ(952件のインシデント)での評価でも優れた成果を示し、今後は学習可能な因果グラフ重み付けへの拡張を検討しています ([Groot: eBay’s Event-graph-based Approach for Root Cause Analysis](https://innovation.ebayinc.com/stories/groot-ebays-event-graph-based-approach-for-root-cause-analysis/)).