## Memo
## Memo with LLM
## Abstract
背景:マイクロサービスアプリケーションでは、観測された障害の根本原因となり得るものを特定することが重要であり、また、そのような根本的な障害がアプリケーションを構成するマイクロサービス全体にどのように伝播したかを説明することも同様に重要です。これにより、例えば、根本的な障害が伝播して観測された障害を引き起こすのを回避する回路ブレーカーや隔壁を導入するなど、観測された障害が再び発生しないようにするための対策を講じることができます。
目的:本論文では、マイクロサービスアプリケーションで発生した障害を説明できるようにすることを目的としています。すべての連鎖障害を調査するか、既知の根本原因から発生したもののみに焦点を当てます。
方法:我々は、観測された障害の原因となった可能性のある連鎖障害を宣言的に特定するログベースの根本原因分析技術を提案する。また、アプリケーションに障害とサービス間のやり取りを記録する仕組みを導入するためのロギング手法を導入し、我々の提案する根本原因分析技術のプロトタイプ実装であるyRCAによってそのようなログを分析できるようにすることで、我々の提案する技術を実際に活用できるようにする。
結果:提案した手法の実用性をケーススタディと制御実験により評価した。ケーススタディでは、提案した手法に必要なログを生成するためにサードパーティのアプリケーションに組み込む作業が容易であること、および注入した障害の説明における有効性が示された。制御実験では、既存のカオステストベッドで取得した障害の説明における提案手法の有効性とパフォーマンスがさらに評価された。
結論:提案した手法は、マイクロサービスアプリケーションで観測された障害の原因となった可能性のある連鎖障害の特定に役立つ。この手法は、考えられるすべての連鎖障害を特定したり、既知の根本原因(例えば、他の既存の根本原因解析ツールで特定されたもの)から連鎖障害がどのように伝播したかを説明したりするために使用できる。