@2021__SREcon21__Beyond-Goldilocks-Reliability

# Beyond Goldilocks Reliability Navigation: [[@2019__SREcon19EMEA__The Map Is Not the Territory - How SLOs Lead Us Astray, and What We Can Do about It]] ← 同著者の前作 ## 概要 [[Narayan Desai]]（[[Google]] Cloud SRE）が SREcon21（2021-10-14）で発表したスライド資料。SRE コミュニティが暗黙的に従ってきた「Goldilocks Reliability」——SLI を測って「ちょうどいい」閾値を設定するアプローチ——の荷重仮定を分析し、代替として**定常性（Stationarity）モデル**を提示した。定常性は信頼性現象を可視化し、階層的診断と先回り型介入を可能にする数理的枠組みとして提唱される。 ## 主要メッセージ - **Goldilocks Reliability の 4 つの荷重仮定を明示化**: 「ちょうどいい」が有意であること・答えが 1 つであること・問いが既知であること・答えが変化しないこと——これらの仮定はしばしば成り立たない（p.8）。 - **信頼性の 3 次元**: 可用性（サービスが必要なときにある）/ パフォーマンス（仕事が効果的に処理される）/ 正確性（サービスが期待どおりに動作する）。定常性はこの 3 次元それぞれに明確なモデルを与える（p.14, p.18）。 - **定常性モデル**: 可用性のエラーは時空間的に独立同分布（i.i.d.）・パフォーマンスは長時間窓にわたって一定・正確性はバグを除いて同一結果を産出する——これらの仮定の違反を検知する（p.18）。 - **定常性が機能する**: 「スロークエリ割合」の時系列が定常性の仮定から逸脱する上昇トレンドを露出する（p.19）。 - **階層的診断**: 定常性違反を理由別（IO Time vs. 全体 e2e レイテンシ）に分解することで根本原因を識別できる（p.20）。 - **新たな能力**: De Novo インパクトアセスメント・先回り型介入・環境不安定性計測・機械的診断・信頼性投資の優先化・顧客の痛みの直接検知（p.22）。 ## 視覚的に重要な図表 **p.3 信頼性アプローチの 3 段階** ![[_attachments/2021__SREcon21__Beyond-Goldilocks-Reliability/page-003.png]] 左から「地図としての分析（どこに投資すべきか）」「スケールする効率化（サブリニアに拡大）」「精密分析による現象の解明とモデルによる信頼性工学」の 3 段階を示す。 **p.6 Goldilocks Reliability の 3 ステップ** ![[_attachments/2021__SREcon21__Beyond-Goldilocks-Reliability/page-006.png]] 「SLI を定義する → ちょうどいい閾値を選ぶ → 利益！」という単純化されたアプローチが、2 バケットヒストグラム（閾値以上/以下）への帰着を示す。「(Cl|Hil)arity ensues」（明快さか、あるいは滑稽さか）という皮肉が含まれる。 **p.8 Goldilocks の荷重仮定** ![[_attachments/2021__SREcon21__Beyond-Goldilocks-Reliability/page-008.png]] 4 列構成: (1) 「ちょうどいい」が有意（メトリクスが許容域という概念を使えるほど分布していること、答えが定式化できること）(2) 答えが 1 つ（顧客・ワークロード間の差異がこの仮定を壊す）(3) 問いが既知（個別 Goldilocks メトリクスは狭い窓、多数を組み合わせても「知らないことを知らない」問題が残る）(4) 答えが変化しない（閾値は性能変化・依存関係変化に高感度で、変化が信頼性評価を誤誘導する）。 **p.11 閾値の問題** ![[_attachments/2021__SREcon21__Beyond-Goldilocks-Reliability/page-011.png]] 左: 時系列散布図（ノイズが多く閾値内外の判別が困難）。右: 棒グラフ（閾値内の多数と、閾値外の少数外れ値を示す）。閾値設定の難しさと、外れ値の解釈の脆さを視覚化する。 **p.14 信頼性の 3 次元** ![[_attachments/2021__SREcon21__Beyond-Goldilocks-Reliability/page-014.png]] 可用性（必要なときにサービスがある）/ パフォーマンス（仕事が効果的に処理される）/ 正確性（期待どおりに動作する）の 3 次元定義。 **p.18 定常性による信頼性モデル** ![[_attachments/2021__SREcon21__Beyond-Goldilocks-Reliability/page-018.png]] 各次元に定常性仮定を付与: 可用性＝時空間的に独立同分布のエラー / パフォーマンス＝長時間窓にわたって一定 / 正確性＝バグを除いて同一結果。 **p.19 定常性が機能する例** ![[_attachments/2021__SREcon21__Beyond-Goldilocks-Reliability/page-019.png]] 2021 年 1 月 3〜19 日の米国「スロークエリ総時間割合」時系列。定常性（一定期待）からの乖離として上昇トレンドと急変が可視化されており、赤い矢印でスパイクと回復を指示する。閾値監視では見落とす「ゆっくり進行する劣化」を捉えた例。 **p.20 階層的診断** ![[_attachments/2021__SREcon21__Beyond-Goldilocks-Reliability/page-020.png]] 2021 年 3 月 7〜21 日の「理由別スロークエリ割合」時系列（セル vx）。3 月 9〜15 日の期間（赤い矩形）で IO Time と全体 e2e レイテンシが共に ~75〜100% まで急増。3 月 15 日以降に消滅。この解像度があるため IO がボトルネックと特定できる。 **p.21 定常性が露出する現象** ![[_attachments/2021__SREcon21__Beyond-Goldilocks-Reliability/page-021.png]] 準臨界パフォーマンスシフト / ゆっくり進行するインシデント / パフォーマンス退行 / サブシステム障害 / プロビジョニング問題 / 隔離障害 / 顧客の痛み。 **p.22 新たに可能になる能力** ![[_attachments/2021__SREcon21__Beyond-Goldilocks-Reliability/page-022.png]] De Novo インパクトアセスメント / 先回り型信頼性介入 / 環境不安定性の計測 / 機械的診断 / データ駆動的な信頼性投資優先化 / 顧客の痛みの直接検知。 ## 口頭説明・補足 transcript（Whisper 生成）から得られた、スライドに明示されていない補足情報。 **定常性メソッドの技術的詳細**（transcript l.259–284）: 手法は「特定イベントの相対尤度を評価し、その時間窓平均を見る」という仕組み。閾値設定が不要（calibration-free）であり、人間の判断を介さず履歴データのみで動作する。これによりエラー率・ノイズに悩まされる Goldilocks の「人が 100 回の判断のうち 10〜30 回間違える」問題を回避できる。 **定常性メソッドはイテレーション産物**（transcript l.204–208）: 「これは私たちの最初のモデルではない。最初のモデルは有益な情報を教えてくれなかったため廃棄した」——バックテスト・精緻化のプロセスを経て現在のモデルに至った。 **インパクトアセスメントの具体例**（transcript l.319–327）: あるインシデントでポストモーテムの影響範囲特定に TL が 12 時間費やし、かつ見落としがあった。定常性モデルはその見落としを検出し、バックテストで信頼性を確認。 **急性介入（ER 治療）から予防ケア（年次健康診断）へ**（transcript l.330–337）: 「今日の信頼性介入はすべて救急病院への駆け込みとして設計されている。私は毎年の健康診断のようなものを望む」——定常性の高感度計測が朝のコーヒーを飲みながら予兆を確認するルーティンを可能にする。 **解釈モデルから予測モデルへ**（transcript l.356–361）: 「確立した科学では解釈モデルから始まり、予測モデルへと進化した。SRE もそこを目指すべき」。現在の定常性モデルは解釈モデルの段階にある。 **Kraken チームについて**（transcript l.8–17）: Desai の Google 内チーム（Brent Bryan・Jeff Borwey・Angus Fong・Navaid Abidi など）が手法の開発主体。複数のサービスチームが「自分たちが悩む問題」を提起し、厳密さを要求することで方法論を磨いてきた。 **Unix プロセスランタイムの例**（transcript l.70–73）: 「ちょうどいい」を定義するのが難しいメトリクスの例として Unix 実行ファイルのランタイムを挙げる——短いこともあれば長いこともあり、自然な「適正範囲」がない。Goldilocks が適さないメトリクスの具体例。 ## 概念・実体への接続 - 主要概念: [[定常性モデル]] / [[SREの工学化]] / [[サービスレベル目標]] - 登壇者: [[Narayan Desai]] / 所属: [[Google]] - 謝辞人物: Eric Brewer / Niall Murphy / Nicole Forsgren / Jez Humble / Lorin Hochstein（p.2） - 引用: George E. F. Box「All models are wrong, but some are useful.」/ Lorin Hochstein「...and some are dangerous.」（p.7, p.15） ## 限界・不確実点 - p.11 のグラフの軸ラベルと数値が画像解像度で読み取れない。実際の閾値・スケールは不明（transcript でも数値の言及なし）。 - Q&A セクションなし（transcript は本編のみ、質疑は記録されていない）。 - 定常性メソッドの実装詳細（ウィンドウサイズ・尤度計算の具体的手法）は「詳細は時間が足りない」として割愛されている。