Zadka-コストモデル-詳細 - yuuk1's Digital Garden

# Zadka のコストモデル詳細解説 ## 問い [[Moshe Zadka]] が SREcon22 Americas で発表したアラート品質コストモデルについて詳しく解説せよ。 ## 回答 [[@2022__SREcon22 Americas__Modeling Alert Quality|Zadka SREcon22]] が提示した実践的フレームワーク。核心は「アラート品質を直接測定するのではなく、**コスト(アンチクオリティ)として測定し符号反転で品質とみなす**」という逆転の発想にある。 --- ### 基本構造: アンチクオリティとしての品質 ``` アラート品質 = −( アラーティングのコスト + 非アラーティングのコスト ) ``` このモデル化のメリットは、「アラートを増やす」と偽アラームが増えてアラーティングコストが上がり、「アラートを減らす」と欠落アラームが増えて非アラーティングコストが上がる、というトレードオフを**単一の目的関数に統合できる**点にある。 --- ### アラームの 3 分類 | 種別 | 定義 | コストの性質 | |---|---|---| | **真アラーム** | 実際の障害を指し示し修復が必要だったもの | システムの存在理由。レイテンシを最小化する対象 | | **偽アラーム** | 問題がなかった、または即時修復不要だったもの | 純粋なコスト。人数 × 時間 × 不便さ | | **欠落アラーム** | 障害が発生したが発火しなかったもの | 品質計測に**不可欠**。アラートの追加/削除が真アラームと相互変換するため省けない | 「useless alarm」(既知インシデントの後追り通知)も偽アラームと同列のコストとして扱う(口頭補足)。欠落アラームを品質計測に含めることが強調された。「アラートを削除すれば偽アラームが減り品質が上がる」という誤解を防ぐためで、削除した分だけ欠落アラームが増えてコストが移転するだけと明示できる。 --- ### 真アラームのレイテンシ 4 区間分解真アラームのタイムラインを 4 区間に分解し、**各区間の改善レバーを独立させる**のが実践的な強みだ。 ``` 障害発生 ──[①]── アラート発火 ──[②]── 人間が認知 ──[③]── 修復策の特定 ──[④]── デプロイ完了 ``` | 区間 | 内容 | 改善レバーの例 | |---|---|---| | ① 発生→検知 | 障害発生からアラート発火まで | スマートなルール、データ要件の削減 | | ② 検知→確認 | 発火から OCE が認知を証明するまで | 確認ボタン、オンコールローテーション最適化 | | ③ 確認→診断 | 認知から**正しい**修復策の特定まで | 診断情報の付与、コンテキスト埋め込み | | ④ 診断→復旧 | 修復策特定からデプロイ完了まで | Runbook リンク、ワンクリック復旧 | - 偽アラームは①なしで②③のみ(復旧は発生しない) - 欠落アラームも同じ 4 区間だが、検知経路が「顧客クレーム・マーケティングの気づき」等になるため①が著しく長くなる --- ### コスト構造の全体像 **アラーティングのコスト(偽アラーム側)** ``` 偽アラームコスト = 人数 × 時間 × 不便さ係数 ``` 不便さ係数は「勤務時間外か」「重要プロジェクトの中断か」「不要な人員を巻き込むか」等で決まる。 **非アラーティングのコスト(欠落アラーム側)** - 復旧までの追加時間 × 被害規模 - 検知遅延による被害拡大 **インシデントコスト(真アラームに付随)** | 項目 | 内容 | |---|---| | 復旧作業コスト | 中断度(時間外・プロジェクト遅延・余分な巻き込み) + 作業量(診断・テスト・デプロイ) | | 即時的損失 | SLA 違反・逸失取引 | | 評判コスト | 顧客フィードバック・継続取引・新規獲得への影響 | | 二次インシデント | 復旧作業中に引き起こす追加障害 | Zadka の発言: 「評判コストは推定が極めて難しい。**難しいから無視するのではなく、難しいからこそ取り組む理由がある**」。 --- ### 品質計測の実践 **遅行指標と即時 OKR の組み合わせ** アラート品質は遅行指標(十分なサンプルが溜まるまでノイズが多い)のため、近似的な即時 OKR で補完する: - 偽アラーム件数の週次推移 - 勤務時間外と勤務時間内の比率 - 有用な Runbook リンクが付いている割合 **Goodhart の法則への警戒** > アラート品質指標を報酬・昇進・ボーナスの目標にすると、人々は品質そのものでなく**指標の最適化**に走る。品質指標は「チームが自発的に追跡するフィードバック機構」として使い、業績評価の目標にしてはならない。 --- ### QoA 3 軸との対応 [[Quality of Alerts]](QoA)と Zadka モデルは同年(2022)に出された相補的な枠組み。QoA が「何が品質を構成するか」を軸立てし、Zadka が「それぞれにどんなコストが対応するか」を分解した。 | QoA 軸 | Zadka モデルでの読み替え | |---|---| | indicativeness | 偽アラーム・useless alarm の削減 → アラーティングコスト低減 | | precision | 真アラームの発生→検知区間①の短縮 | | handleability | 確認→診断→復旧の区間②③④の短縮 | ## 出典 - [[@2022__SREcon22 Americas__Modeling Alert Quality]] — 全セクション - [[@2022__DSN__Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems]] §IV — QoA 3 軸との関係