[[Chaos Engineering tools comparison]]
- Chaos MeshかLitmosの2択になる。
[[Observability Considarations in Chaos]]
[[ArgoCD + Litmus Chaos]]
[[Getting Started with Chaos Engineering – design of animplementation framework in practice]]
- Chaosの文献調査などをやってくれている
Automating Failure Injection for AIOps
## FI自動化基盤の要件
a) Kubernetes管理化のコンポーネントに故障を注入できる
b) 故障の種類を選択できる、拡張できる
c) Kubernetesのノードにも故障を注入できる (Optional)
d) FI期間の指定ができる
e) FI期間とFI開始-N分の時間範囲のメトリックを取得可能
f) 閉区間を、異常注入後、SLOアラートが送信されるまでの期間にもできる (Optional)
g) 取得した時系列データを保存・管理する。 (Optional)
h) ダッシュボードも保存・管理する (Optional)
i) 機械学習処理を実行する。 (Optional)
j) ベンチマーカーが負荷を変化させられる。 (Optional)
## シミュレートのための故障の分類
- 物理キャパシティの枯渇
- 論理キャパシティの枯渇
- [[2017__HOTOS__Gray failure - the Achilles’ heel of cloud-scale systems]]
- [[2020__HOTOS__What bugs cause production cloud incidents?]]
- [[Testing Configuration Changes in Context to Prevent Production Failures]]
## Chaosフレームワークで満たせない要件
要件e以降は満たせない。
実験と時系列データの対応づけが必要。
アラート送信時刻も記録できるようにする。
[[LitmusChaos]] のPortalで、各実験のメタデータをAPIで参照できるのかどうか。