AIOpsアプローチのプロダクション環境での半自動評価

[[Meltria]]の発展型 - 課題: 任意のシステムに[[AIOps]]の [[Failure Management]]アプローチを導入する際に、どの程度の予測性能や実行性能になるかが不明 - 最適なパラメータも不明 - 解決: [[Chaos Engineering]]により、意図的にFailureを注入し、Failureを予測・検知・診断できるかどうかを評価する - 何のFailureをどこに注入するかを対象アプリケーションの構成を自動で読み出して、自動決定 - アプリケーションコードに関係する機能障害を意図的に再現するのはかなり難しい - 外部負荷の増加 - Failureを注入したさいにデータを採取し、複数のアプローチを適用し、精度や実行時間を計測 - どのアプローチがよいか。 - どのアプローチのどのパラメータがよいか。 - [[マイクロサービステストベッド - MOC]]とスコアと比べてどうか - どのパラメータを選ぶかなどはテストベッドの結果を参考にする - 適用したい環境に近いテストベッドを選択する - 過去のインシデント履歴を読みだして評価できればよりよい - 導入後にインシデントが発生したときに、障害回復後にどのアプローチがよいかを自動決定