SLO違反のアラートを契機に因果を探索する研究を立ち上げようとしている。 [分散アプリケーションの異常の原因を即時に診断するための手法の構想 / Causality Tracing in Distributed Applications](https://speakerdeck.com/yuukit/causality-tracing-in-distributed-applications) SRW本をもとにまずはSLI/SLOとエラーバジェットを学術的に整理することにした. - 信頼性,SLI/SLO,エラーバジェットの用語定義 - SLI/SLOのパターン分類 - システム分類: リクエスト駆動,パイプライン,ストレージ - Availability, Latency, Freshness, Correctness, Completeness - 時間ウィンドウ - SLOをもとにしたアラーティング - アラート戦略の評価項目: **適合率,再現率,検出時間,**リセット時間 - アラートを設定する 6 つの方法: 1. ターゲットのエラーレート ≥ SLOの閾値 2. より長いアラートウィンドウ 3. アラートの期間のインクリメント 4. バーンレートに対するアラート 5. 複数バーンレートのアラート 6. 複数ウィンドウ、複数バーンレートのアラート (Cookpadではこれ [https://speakerdeck.com/takanabe/sre-next-2020-c6-designing-fault-tolerant-microservices-with-sre-and-circuit-breaker-centric-architecture?slide=106](https://speakerdeck.com/takanabe/sre-next-2020-c6-designing-fault-tolerant-microservices-with-sre-and-circuit-breaker-centric-architecture?slide=106))