[User Uptime in Practice | USENIX](https://www.usenix.org/conference/srecon21/presentation/mukherji)
- [[2020__NSDI__Meaningful Availability]]のPinterestにおける導入事例。
- 成功率の信頼性指標
- サーバーから見た健康状態
- Overactive Users
- すべてのリクエストが等価に扱われる
- ユーザ行動
- 異なる種類のエラー
- リトライ
- スイッチ
- User uptime
- ユーザーイベントは、そのユーザーの視点からシステムの健全性を評価するためのプローブである。
- ![[Pasted image 20211016113603.png]]
- APIをCiriticalityで分類
- 実装
- APIサーバからKafkaへ、(userid,sessionid,endpoint,is_sucess,timestamp)のイベントをなげる
- Xenon Platform/Flink
- Window by User ID
- SessionがおわったことをトリガーとしてWindowを評価
- メトリックの集約と公開
- クライアントサイドメトリックとの統合
-