## Memo - Morning Paper: [Meaningful availability | the morning paper](https://blog.acolyer.org/2020/02/26/meaningful-availability/) - [[User Uptime in Practice - SREcon21]]でPinterestに適用された事例が発表されている。 - 良い可用性指標は次の3つの性質を満たすべきである。 - meaningful: ユーザーが実際に経験している - proportional: 測定基準の変更がユーザーが認識する可用性の変更に比例する(例えば、システム利用不能の深刻度合いや影響のうけるユーザー数に比例する) - actionable: ある期間の可用性が低い理由について、システム管理者に洞察を与える - 成功比率の課題は、1)アクティブユーザーへの偏りと、2)ダウン中にユーザーの行動は変化しないことを前提にしていること。 - 2)は、ユーザーはdown中にあきらめてリクエストを停止し、影響を実際よりも小さく見せる - インシデント比率(uptime/total time)の課題は部分downを考慮していない - 提案:windowd user-uptime - meaningful: ユーザーごとにuptimeとdowntimeを算出する。 - proportional: - actionable -> 複数のスケールの異なる期間ウィンドウ(1min, 4mins, ... 1monthなど)ごとに可用性を可視化する - ![[Pasted image 20231001233953.png|400]] ## Memo with LLM ユーザーごとのuptimeは最終的に統計的に要約されます。論文の内容に基づいて、その過程を説明します: 1. 集計: 各時間枠(ウィンドウ)において、すべてのユーザーのuptimeとdowntimeを合計します。 2. 可用性の計算: 以下の式を使用して、各時間枠での全体的な可用性を計算します。可用性 = Σ(ユーザーのuptime) / Σ(ユーザーのuptime + ユーザーのdowntime) 3. MCR(Minimal Cumulative Ratio)の特定: 各時間枠サイズにおいて、最も低い可用性値(MCR)を特定します。 4. グラフ化: 各時間枠サイズとそのMCRを使用してグラフを作成します。 この方法により、個々のユーザーのデータを保持しながら、全体的な可用性の統計的な要約を得ることができます。この要約は、システム全体の可用性を表現し、様々な時間スケールでの問題を特定するのに役立ちます。 ## Abstract クラウドアプリケーションにとって,高可用性は非常に重要な要件であり,システムが高可用性を備えていなければ,ユーザは重要な仕事をそのシステムに頼ることができない.可用性を意味のある形で把握できる指標を持つことは、ユーザーとシステム開発者の双方にとって有益です。ユーザーは、アプリケーションの可用性に何を期待すべきかを知ることができます。また,開発者にとっては,ユーザが経験したアベイラビリティを向上させるために,何に注力すべきかを知ることができる.本論文では、GoogleのG Suiteを例に、新しい可用性指標であるwindowed user-uptimeを紹介し、評価します。この指標は主に2つの要素から構成されています。1つ目は、ユーザが感じる可用性を直接モデル化し、一般的に使用されている可用性メトリクスのバイアスを回避することである。第二に、多くのウィンドウで同時にアベイラビリティメトリクスを計算することにより、多くの短時間の利用不能期間と、少ないが長時間の利用不能期間を容易に区別することができる。 [[2020__NSDI__Meaningful Availability__translations]]