2025__AAAI__Causal Discovery for Cloud Microservice Architectures

## Memo ## Memo with LLM https://claude.ai/chat/01764e05-0f8d-4a0c-886b-17fd67d50144 ``` # 論文情報 - **論文のタイトル**: Causal Discovery for Cloud Microservice Architectures - **著者と所属**: - Christopher Lohse (IBM Research Europe, Dublin & University of Dublin Trinity College) - Diego Tsutsumi (IBM Research Europe, Dublin) - Amadou Ba (IBM Research Europe, Dublin) - Pavithra Harsha (IBM T. J Watson Research Center) - Chitra Subramanian (IBM T. J Watson Research Center) - Martin Straesser (IBM T. J Watson Research Center) - Marco Ruffini (University of Dublin Trinity College) - **カンファレンス/ジャーナル名**: 明記されていませんが、コンピュータサイエンス分野の学術論文の形式で書かれています - **発表年**: 明確な年数は記載されていませんが、引用文献から2023年以降と推測されます # 論文概要この論文では、マイクロサービスベースのクラウドアーキテクチャにおいてレイテンシ(遅延)の原因を特定するための因果モデリングフレームワークを提案しています。提案手法では、因果発見手法を用いてマイクロサービス間の関係を分析し、ドメイン知識を統合することで因果グラフの精度を向上させています。さらに、機械学習技術を用いてレイテンシを再構築し、提案手法の有効性を検証しています。 # 詳細解説 ## 問題設定 - **入力**: マイクロサービスベースのアーキテクチャから収集された観測データ（レイテンシデータと各マイクロサービスのメトリクスデータ） - **出力**: 1. マイクロサービス間のレイテンシの因果関係を表す因果グラフ 2. マイクロサービスのレイテンシとリソース（CPU、メモリなど）との因果関係を含む完全な因果グラフ 3. 因果関係に基づいたレイテンシ予測モデル - **必要なデータ**: - マイクロサービスのレイテンシ測定値 - CPU使用率、メモリ使用量、レプリカ数などのリソースメトリクス - サービス間の呼び出し関係に関するドメイン知識 ## 提案手法提案手法は以下のステップからなるフレームワークです： 1. **レイテンシ因果グラフの発見**: - レイテンシのみのデータを用いて、マイクロサービス間のレイテンシの因果関係を発見 - 時系列データに適した因果発見アルゴリズム（[[2020__UAI__Discovering contemporaneous and lagged causal relations in autocorrelated nonlinear time series datasets|PCMCI+]]など）を使用 - 線形条件付き独立性テストを使用し、レイテンシ間の関係を分析 2. **完全な因果グラフの構築**: - 発見されたレイテンシグラフにリソースメトリクスデータを組み合わせる - ドメイン知識を制約として用いて因果発見を強化（例：CPU使用率は遅延を引き起こすが、その逆はない） - マイクロサービスごとに因果部分グラフを構築し、それらを統合して完全な因果グラフを作成 3. **レイテンシ再構築モデル**: - 発見された因果関係に基づいてマイクロサービスのレイテンシを予測するモデルを構築 - 構造方程式：li = fi(Pali, Ri, η'mi) - liはマイクロサービスmiのレイテンシ - Paliは因果親のレイテンシ - Riはマイクロサービスのリソース - η'miはノイズ項提案手法ではさらに、以下のドメイン固有の仮定が組み込まれています： - A1) 同じマイクロサービス内のエンドポイントは互いに呼び出さない - A2) クライアントリクエスト数はアプリケーションのレイテンシに直接影響しない - A3) インフラストラクチャの高使用率はアプリケーションのパフォーマンスを低下させる（逆は成り立たない） - A4) 同じマイクロサービスのエンドポイントは同じホストにデプロイされる - A5) マイクロサービスmiで記録されたメトリクスxiは、同じマイクロサービスのレイテンシliにのみ直接影響する ## 新規性本研究の主な新規性は以下の点です： 1. **制約付き因果発見の適用**: マイクロサービスアーキテクチャのレイテンシモデリングに制約付き因果発見手法を適用する包括的なフレームワークを提案しています。これは既存研究には見られないアプローチです。 2. **ドメイン知識の統合**: マイクロサービスの特性に関するドメイン知識を因果発見プロセスに統合し、発見された関係の正確性を向上させています。 3. **観測データのみからの因果モデル構築**: 介入データを必要とせず、純粋に観測データからマイクロサービスのレイテンシモデルを発見する方法を示しています。 4. **段階的な因果発見プロセス**: レイテンシグラフの発見と完全な因果グラフの構築を分離し、効率的かつ精度の高い因果発見を実現しています。既存研究（Zhang et al. 2021, 2023; Tam et al. 2023; Park et al. 2021など）も因果的アプローチを使用していますが、マイクロサービスのレイテンシ予測におけるドメイン知識を活用した制約付き因果発見は本研究が初めてです。 ## 実験設定 ### データセット - **Robot Shop**: 実際のeコマースウェブサイトを模した、複数のマイクロサービス（カタログ、カート、支払い、配送など）で構成されるテスト環境 - 1分間隔で取得された1,563のデータポイント（約26時間分の観測データ） - 各マイクロサービスのレイテンシ、CPU使用率、メモリ使用率、呼び出し頻度などのメトリクスが含まれる - 欠損値は直前の値で補完し、2つ以上の異なる値を持たない変数は除外 ### 評価指標 1. **因果グラフ発見の評価**: - 正確度(Accuracy) - 適合率(Precision) - 再現率(Recall) - F1スコア - 構造ハミング距離(SHD): グラフ間の相違を測定する指標 2. **レイテンシ再構築の評価**: - 決定係数(R²): 1が最良 - 平均二乗誤差(MSE): 低いほど良好 ### 比較手法 1. **因果発見アルゴリズム**: - PCMCI+: 時系列データに対応した因果発見アルゴリズム - PCアルゴリズム: 非時系列データ向けの標準的な因果発見手法 - FCIアルゴリズム: 潜在的な交絡因子を考慮できる因果発見手法 2. **レイテンシ再構築モデル**: - SVR(Support Vector Regression): 因果的に選択された特徴を使用 - Lassoモデル: 特徴選択機能を持つ線形モデル - XGBoost: すべての特徴を使用するベンチマークとして利用 ## 実験結果 ### 因果レイテンシグラフ発見マイクロサービスレベルでの結果: - PCMCI+: 正確度0.83、適合率0.55、再現率1.00、F1スコア0.71、SHD 5 - PC: 正確度0.80、適合率0.50、再現率0.83、F1スコア0.63、SHD 6 - FCI: 正確度0.83、適合率0.60、再現率0.50、F1スコア0.54、SHD 5 エンドポイントレベルでの結果: - PCMCI+: 正確度0.91、適合率0.42、再現率0.83、F1スコア0.56、SHD 8 - PC: 正確度0.91、適合率0.42、再現率0.83、F1スコア0.56、SHD 8 - FCI: 正確度0.93、適合率0.50、再現率0.50、F1スコア0.50、SHD 6 PCMCI+がマイクロサービスレベルですべてのエッジを回復し、高い再現率を示しました。しかし、一部のエッジの方向性の特定に課題がありました。 ### レイテンシ再構築モデル SVRモデル（因果的特徴を使用）は、すべてのエンドポイントでR²値が0.5以上を達成し、特に以下のエンドポイントで高いパフォーマンスを示しました: - catalogue_product: R² 0.96、MSE 27.92 - cart_shipping: R² 0.94、MSE 85.84 - web_cart_add: R² 0.92、MSE 280.48 - cart_add: R² 0.92、MSE 122.25 - user_unique_id: R² 0.92、MSE 2.18 ベンチマークのXGBoostモデル（すべての特徴を使用）と比較すると、SVRは一般的に若干低いパフォーマンスでしたが、cart_shippingとshipping_confirmでは優れた結果を示しました。重要なのは、因果的に選択された特徴のみを使用してレイテンシを効果的に再構築できることが示された点です。さらに、特徴の重要度分析により、CPU上限やCPU使用率などの実際に介入可能な特徴が予測に寄与していることが確認されました。以上の結果から、提案された因果モデリングフレームワークが、マイクロサービスアーキテクチャにおけるレイテンシの因果関係を効果的に捉え、レイテンシ予測と原因特定に役立つことが示されました。 ``` ## Abstract マイクロサービスベースのアーキテクチャは、管理性、拡張性、柔軟性などの利点があるため、その利用が目立ってきている。しかし、その管理は複雑であり、高い遅延によってパフォーマンスが影響を受け、サービスレベル目標（[[SLO]]）が変化する可能性がある。高遅延の原因を特定するために、マイクロサービスベースのアーキテクチャ内の遅延を分析・再構築できる因果モデリングフレームワークを提示する。この目的のために、遅延の原因を特定するための因果発見を採用する。我々のモデルは、因果グラフに制約を課すためにドメイン知識を統合し、発見された関係の正確さを保証するとともに、因果の発見を加速する。本アプローチを検証するために、機械学習技術を用いてレイテンシメトリックスを再構築し、マイクロサービスのリソース間の相互関係を正確に捉えることで、本アプローチの有効性を実証する。我々のフレームワークは、SLO違反につながるレイテンシの原因に対する理解を深め、クラウドリソースのプロアクティブな管理を可能にする洗練されたメカニズムへの道を開く。