[User Uptime in Practice | USENIX](https://www.usenix.org/conference/srecon21/presentation/mukherji) - [[2020__NSDI__Meaningful Availability]]のPinterestにおける導入事例。 - 成功率の信頼性指標 - サーバーから見た健康状態 - Overactive Users - すべてのリクエストが等価に扱われる - ユーザ行動 - 異なる種類のエラー - リトライ - スイッチ - User uptime - ユーザーイベントは、そのユーザーの視点からシステムの健全性を評価するためのプローブである。 - ![[Pasted image 20211016113603.png]] - APIをCiriticalityで分類 - 実装 - APIサーバからKafkaへ、(userid,sessionid,endpoint,is_sucess,timestamp)のイベントをなげる - Xenon Platform/Flink - Window by User ID - SessionがおわったことをトリガーとしてWindowを評価 - メトリックの集約と公開 - クライアントサイドメトリックとの統合 -