[[Chaos Engineering tools comparison]] - Chaos MeshかLitmosの2択になる。 [[Observability Considarations in Chaos]] [[ArgoCD + Litmus Chaos]] [[Getting Started with Chaos Engineering – design of animplementation framework in practice]] - Chaosの文献調査などをやってくれている Automating Failure Injection for AIOps ## FI自動化基盤の要件 a) Kubernetes管理化のコンポーネントに故障を注入できる b) 故障の種類を選択できる、拡張できる c) Kubernetesのノードにも故障を注入できる (Optional) d) FI期間の指定ができる e) FI期間とFI開始-N分の時間範囲のメトリックを取得可能 f) 閉区間を、異常注入後、SLOアラートが送信されるまでの期間にもできる (Optional) g) 取得した時系列データを保存・管理する。 (Optional) h) ダッシュボードも保存・管理する (Optional) i) 機械学習処理を実行する。 (Optional) j) ベンチマーカーが負荷を変化させられる。 (Optional) ## シミュレートのための故障の分類 - 物理キャパシティの枯渇 - 論理キャパシティの枯渇 - [[2017__HOTOS__Gray failure - the Achilles’ heel of cloud-scale systems]] - [[2020__HOTOS__What bugs cause production cloud incidents?]] - [[Testing Configuration Changes in Context to Prevent Production Failures]] ## Chaosフレームワークで満たせない要件 要件e以降は満たせない。 実験と時系列データの対応づけが必要。 アラート送信時刻も記録できるようにする。 [[LitmusChaos]] のPortalで、各実験のメタデータをAPIで参照できるのかどうか。