# Zadka のコストモデル詳細解説
## 問い
[[Moshe Zadka]] が SREcon22 Americas で発表したアラート品質コストモデルについて詳しく解説せよ。
## 回答
[[@2022__SREcon22 Americas__Modeling Alert Quality|Zadka SREcon22]] が提示した実践的フレームワーク。核心は「アラート品質を直接測定するのではなく、**コスト(アンチクオリティ)として測定し符号反転で品質とみなす**」という逆転の発想にある。
---
### 基本構造: アンチクオリティとしての品質
```
アラート品質 = −( アラーティングのコスト + 非アラーティングのコスト )
```
このモデル化のメリットは、「アラートを増やす」と偽アラームが増えてアラーティングコストが上がり、「アラートを減らす」と欠落アラームが増えて非アラーティングコストが上がる、というトレードオフを**単一の目的関数に統合できる**点にある。
---
### アラームの 3 分類
| 種別 | 定義 | コストの性質 |
|---|---|---|
| **真アラーム** | 実際の障害を指し示し修復が必要だったもの | システムの存在理由。レイテンシを最小化する対象 |
| **偽アラーム** | 問題がなかった、または即時修復不要だったもの | 純粋なコスト。人数 × 時間 × 不便さ |
| **欠落アラーム** | 障害が発生したが発火しなかったもの | 品質計測に**不可欠**。アラートの追加/削除が真アラームと相互変換するため省けない |
「useless alarm」(既知インシデントの後追り通知)も偽アラームと同列のコストとして扱う(口頭補足)。
欠落アラームを品質計測に含めることが強調された。「アラートを削除すれば偽アラームが減り品質が上がる」という誤解を防ぐためで、削除した分だけ欠落アラームが増えてコストが移転するだけと明示できる。
---
### 真アラームのレイテンシ 4 区間分解
真アラームのタイムラインを 4 区間に分解し、**各区間の改善レバーを独立させる**のが実践的な強みだ。
```
障害発生 ──[①]── アラート発火 ──[②]── 人間が認知 ──[③]── 修復策の特定 ──[④]── デプロイ完了
```
| 区間 | 内容 | 改善レバーの例 |
|---|---|---|
| ① 発生→検知 | 障害発生からアラート発火まで | スマートなルール、データ要件の削減 |
| ② 検知→確認 | 発火から OCE が認知を証明するまで | 確認ボタン、オンコールローテーション最適化 |
| ③ 確認→診断 | 認知から**正しい**修復策の特定まで | 診断情報の付与、コンテキスト埋め込み |
| ④ 診断→復旧 | 修復策特定からデプロイ完了まで | Runbook リンク、ワンクリック復旧 |
- 偽アラームは①なしで②③のみ(復旧は発生しない)
- 欠落アラームも同じ 4 区間だが、検知経路が「顧客クレーム・マーケティングの気づき」等になるため①が著しく長くなる
---
### コスト構造の全体像
**アラーティングのコスト(偽アラーム側)**
```
偽アラームコスト = 人数 × 時間 × 不便さ係数
```
不便さ係数は「勤務時間外か」「重要プロジェクトの中断か」「不要な人員を巻き込むか」等で決まる。
**非アラーティングのコスト(欠落アラーム側)**
- 復旧までの追加時間 × 被害規模
- 検知遅延による被害拡大
**インシデントコスト(真アラームに付随)**
| 項目 | 内容 |
|---|---|
| 復旧作業コスト | 中断度(時間外・プロジェクト遅延・余分な巻き込み) + 作業量(診断・テスト・デプロイ) |
| 即時的損失 | SLA 違反・逸失取引 |
| 評判コスト | 顧客フィードバック・継続取引・新規獲得への影響 |
| 二次インシデント | 復旧作業中に引き起こす追加障害 |
Zadka の発言: 「評判コストは推定が極めて難しい。**難しいから無視するのではなく、難しいからこそ取り組む理由がある**」。
---
### 品質計測の実践
**遅行指標と即時 OKR の組み合わせ**
アラート品質は遅行指標(十分なサンプルが溜まるまでノイズが多い)のため、近似的な即時 OKR で補完する:
- 偽アラーム件数の週次推移
- 勤務時間外と勤務時間内の比率
- 有用な Runbook リンクが付いている割合
**Goodhart の法則への警戒**
> アラート品質指標を報酬・昇進・ボーナスの目標にすると、人々は品質そのものでなく**指標の最適化**に走る。
品質指標は「チームが自発的に追跡するフィードバック機構」として使い、業績評価の目標にしてはならない。
---
### QoA 3 軸との対応
[[Quality of Alerts]](QoA)と Zadka モデルは同年(2022)に出された相補的な枠組み。QoA が「何が品質を構成するか」を軸立てし、Zadka が「それぞれにどんなコストが対応するか」を分解した。
| QoA 軸 | Zadka モデルでの読み替え |
|---|---|
| indicativeness | 偽アラーム・useless alarm の削減 → アラーティングコスト低減 |
| precision | 真アラームの発生→検知区間①の短縮 |
| handleability | 確認→診断→復旧の区間②③④の短縮 |
## 出典
- [[@2022__SREcon22 Americas__Modeling Alert Quality]] — 全セクション
- [[@2022__DSN__Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems]] §IV — QoA 3 軸との関係