@2022__SREcon22 Americas__Modeling Alert Quality

# Modeling Alert Quality [[Moshe Zadka]] が SREcon22 Americas(2022 年 3 月、サンフランシスコ)で発表したトーク。アラート品質を**コストモデル**で定量的に分解し、計測・改善・反復の枠組みを提示する。12 ページのノート形式スライド + 約 30 分の口頭発表。 ## 概要アラート品質を「アラーティングのコスト」と「非アラーティングのコスト」の合算(アンチクオリティ)として捉え、符号反転で品質指標とする実践的フレームワークを示す。アラームを真(true alarm)・偽(false alarm)・欠落(missing alarm)の 3 種に分類し、各々のレイテンシとコスト構造を分解することで「何を計測し、何を改善すべきか」を明確にする。 ## 主要メッセージ ### 1. アラートの定義と分類モニタリングの基本フローを「システム → アグリゲータ → イベント → アラート」と整理し、高優先度アラート（即時対応を要するもの）に焦点を絞る。アラームの 3 分類: - **真アラーム**: 実際の障害を指し示し、修復が必要だったもの。アラートシステムの存在理由。 - **偽アラーム**: 実際には問題がなかった、または即時修復を要しなかったもの。純粋なコスト。 - **欠落アラーム**: 障害が発生したが発火しなかったもの。アラートの追加・削除が真アラームと欠落アラームを相互変換するため、品質計測に不可欠。口頭説明では「useless alarm」（既知インシデントの後追いで発火するアラーム）も偽アラームと同列のコストとして扱うべきだと補足された。 ### 2. レイテンシの 4 区間分解真アラームのタイムラインを 4 区間に分解する: | 区間 | 定義 | 改善手段の例 | |---|---|---| | 発生 → 検知 | 障害発生からアラート発火まで | よりスマートなルール、少ないデータ要件 | | 検知 → 確認 | アラート発火から人間が認知を証明するまで | 確認ボタン、オンコールローテーション最適化 | | 確認 → 診断 | 認知から正しい修復策の特定まで | 診断情報の付与、コンテキスト埋め込み | | 診断 → 復旧 | 修復策特定からデプロイ完了まで | Runbook リンク、ワンクリック復旧 | 欠落アラームも同じ 4 区間を持つが、検知が別経路（顧客クレーム、マーケティングチームの気づき等）で起きるため、発生→検知の区間が長くなる。偽アラームは検知→確認→診断の 3 区間のみで、復旧は発生しない。 ### 3. コスト構造 **アラーティングのコスト（マイナス側）**: - 偽アラームのコスト = 人数 × 時間 × 不便さ（convenience factor） - Useless alarm のコスト（既知問題の重複発火） **非アラーティングのコスト（欠落アラームの代償）**: - 復旧までの追加時間 - 検知遅延による被害拡大 **インシデントコスト**: - **復旧作業コスト**: 中断度（勤務時間外か、重要プロジェクト遅延か、不要な人員の巻き込みか）+ 作業量（診断、テスト、デプロイ） - **インシデント損失**: 時間積分された被害。即時的コスト（SLA 違反、逸失取引）+ 評判コスト（顧客フィードバック、継続取引、新規獲得への影響） - **二次インシデント**: 復旧作業中に引き起こされる追加障害 ### 4. 品質計測の実践 - **データ収集**: 可能な限り実測し、不可能なら推定する。推定は根拠を明示し、信頼区間を含める。 - **優先順位決定**: 事業戦略に連動し、戦術的ゴールに翻訳する（どのメトリクスを、どれだけ、その価値は何か）。 - **後追い OKR**: アラート品質は遅行指標。十分なサンプルが溜まるまでノイズが多い。 - **即時 OKR**: 偽アラーム件数、勤務時間内外の分布、有用な Runbook 率など、近似的だが即時追跡可能な指標で補完する。 ### 5. 注意事項 - **ブラックスワン**: 中期的な品質計測に過剰適合すると稀だが壊滅的な事象への備えを失う。安全マージンを意識する。 - **Goodhart の法則**: アラート品質を報酬・昇進・ボーナスの目標にすると、人々は品質そのものでなく指標の最適化に走る。品質指標はチームが自発的に追跡するフィードバック機構として使い、業績評価の目標にはしない。 ### 6. まとめアラート品質は重要である（エンジニアの燃え尽き、顧客満足度に直結）。追跡には時間と労力を要するが、「計測 → 修正 → 反復」のプロセスなしには劣化は避けられない。 ## 口頭説明・補足 - Zadka は「useless alarm」の概念を強調した。技術的には偽アラームではないが（実際に問題は存在する）、既に認知済みの問題を再通知するため純粋なコストとなる。 - 「missing alarm をアラート品質に含めるのは直感に反するが、アラートの追加・削除が missing alarm と true alarm を相互変換するため、品質の全体像に不可欠」と強調。 - 診断の定義について「真の修復策を特定した時点」と功利主義的に定義。事後にしか確定しないが、時刻自体は遡及的に特定可能。 - 復旧の partial remediation（50% 解決）への対処として、時間加重平均を提案。 - 即時的コスト（SLA 違反など）は推定しやすいが、評判コストは推定が極めて難しい。「難しいから無視するのではなく、難しいからこそ取り組む理由がある」と述べた。 ## 概念・実体への接続 - [[Quality of Alerts]] — Yang+ DSN2022 の 3 軸モデル（indicativeness・precision・handleability）と本トークのコストモデルは相補的。本トークは「何がコストか」を分解し、QoA は「何が品質を構成するか」を軸立てする。 - [[アラート管理]] — アラートライフサイクル全体のコスト最適化の視座を提供。 - [[アクショナブルアラート]] — 真アラームの各区間短縮は actionability の具体化。 - [[サービスレベル目標]] — SLA 違反が即時的コストの一構成要素。 - [[Goodhart の法則]] — アラート品質指標の運用上の注意。 ## 限界・不確実点 - スライドはテキストベースのノート形式で、図表・グラフは含まれない。 - 登壇者の所属組織は USENIX 公式ページでも空欄（institution フィールド未設定）。個人サイト cobordism.com を掲示。 - 発表日時: 2022-03-16 13:40–14:20（USENIX 公式ページで確認）。 - Transcript は YouTube 自動字幕由来。固有名詞の精度に限界がある（例: "two alarm" は "true alarm" の誤認識）。