[[2021__IWQOS__Practical Root Cause Localization for Microservice Systems via Trace Analysis]] ![[Pasted image 20220912121028.png]] - Application Bugは[[Istio]]でwrong responseを返している - Network Delayも[[Istio]]で注入している > 既存の研究[7] ([[2018__ICSOC__Microscope―Pinpoint Performance Issues with Causal Graphs in Micro-service Environments|Microscope]])、[11] ([[2019__ESEC-FSE__Latent Error Prediction and Fault Localization for Microservice Applications by Learning from System Trace Logs|MEPFL]])、[13] ([[2020__ISSRE__Unsupervised Detection of Microservice Trace Anomalies through Service-Level Deep Bayesian Networks|TraceAnomaly]]) に従い、我々は故障注入によって[[TrainTicket]]の故障を構築しました。我々は、既存研究[7], [11], [13]に従い、アプリケーションバグ、CPU消耗、ネットワークジャムの3種類の故障を採用した。さらに,様々な状況下での性能を評価するために,マイクロサーバイス,コンテナ,APIの 3つの異なるレベルのコンポーネントの故障を考慮した.表 I に示すように,合計 5 つの故障注入戦略がある.特定のレベルのターゲットに特定のタイプの故障を注入するために,まず,コンテナ/マイクロサービス/API をランダムに選択し,その上で対応する注入戦略を適用した.複数原因の故障については,特定レベルのコンテナ/マイクロサービス/API を複数選択し,対応するタイプの故障を同時に注入した.各故障は約 5 分間継続した.合計で 5 つのカテゴリからなる 200 個の故障と 242,259 個のトレースを構築し,そのうちの 22,675 個(9.36%)は故障の影響を受けていることがわかった.特に、TraceRCA が単一ルート原因の故障と複数ルート原因の故障(後者は実際には稀ですが[22]、[38])の両方に対して機能するかどうかを十分に調査するために、200 の故障のうち複数のルート原因のマイクロサービスを持つ 11 故障を構築しました。プレゼンテーションを容易にするため、Train-Ticket データセットを A と呼ぶ。