SLO違反のアラートを契機に因果を探索する研究を立ち上げようとしている。
[分散アプリケーションの異常の原因を即時に診断するための手法の構想 / Causality Tracing in Distributed Applications](https://speakerdeck.com/yuukit/causality-tracing-in-distributed-applications)
SRW本をもとにまずはSLI/SLOとエラーバジェットを学術的に整理することにした.
- 信頼性,SLI/SLO,エラーバジェットの用語定義
- SLI/SLOのパターン分類
- システム分類: リクエスト駆動,パイプライン,ストレージ
- Availability, Latency, Freshness, Correctness, Completeness
- 時間ウィンドウ
- SLOをもとにしたアラーティング
- アラート戦略の評価項目: **適合率,再現率,検出時間,**リセット時間
- アラートを設定する 6 つの方法:
1. ターゲットのエラーレート ≥ SLOの閾値
2. より長いアラートウィンドウ
3. アラートの期間のインクリメント
4. バーンレートに対するアラート
5. 複数バーンレートのアラート
6. 複数ウィンドウ、複数バーンレートのアラート (Cookpadではこれ [https://speakerdeck.com/takanabe/sre-next-2020-c6-designing-fault-tolerant-microservices-with-sre-and-circuit-breaker-centric-architecture?slide=106](https://speakerdeck.com/takanabe/sre-next-2020-c6-designing-fault-tolerant-microservices-with-sre-and-circuit-breaker-centric-architecture?slide=106))