## Memo - ベースラインアプローチは、[[2009__CSMR__Automatic Failure Diagnosis Support in Distributed Large-Scale Software Systems based on Timing Behavior Anomaly Correlation|TBAC]]、[[2020__NOMS__MicroRCA - Root Cause Localization of Performance Issues in Microservices|MicroRCA]]、[[2018__CCGRID__CloudRanger―Root Cause Identification for Cloud Native Systems|CloudRanger]]、[[2023__TDSC__DyCause - Crowdsourcing to Diagnose Microservice Kernel Failure|DyCause]] - データセットは、[[Sock Shop]]、[[Online Boutique]]、[[2022 AIOps Challenge マイクロサービス・アーキテクチャの電子商取引システムにおける障害の識別と分類]] ## Memo with LLM ## Abstract マイクロサービスアーキテクチャは、疎結合のサービスと複雑なコールパターンを特徴とし、弾力的なスケーラビリティと開発の俊敏性から、クラウドアプリケーションの主流となっている。 しかし、異常伝播と根本原因分析(RCA)には課題があり、多くの場合、運用知識とシステムの習熟度に依存しています。 非侵襲的なRCAフレームワークであるFlowRCAは、マイクロサービス環境におけるRCAを促進するために、CPU負荷、メモリ使用量、コンテナレイテンシーなどの一般的な監視メトリクスを活用することで、これらの課題に対処します。 メトリクス間の因果関係を分析することで、FlowRCAは障害伝播の複雑さを明らかにし、正確で包括的な障害診断を可能にします。 実験により、FlowRCAが既存のアルゴリズムよりも優れていることが示され、シミュレートされた環境で障害のあるマイクロサービスと根本原因のメトリクスを効果的に特定することができました。