# Going from 30 to 30 Million SLOs
Navigation: [[@2022__SREcon22EMEA__Going-from-30-to-30-Million-SLOs]] | [[サービスレベル目標]] | [[SLI-SLO段階的導入]]
## 概要
[[Alex Palcuie]]([[Google]] SRE、GCE Compute API チーム)が SREcon22 EMEA(2022 年 10 月、アムステルダム)で発表したスライド。Google Compute Engine の SLO を 6 年間(2016〜2022 年)にわたって 30 個 → 約 1,000 個 → 3,000 万個へ拡張した軌跡を、技術的手法とアーキテクチャとともに解説する。中心テーゼは「集計 SLO は大規模プロバイダにとって健全に見えるが、個別顧客の体験を隠蔽する」であり、解決策として顧客(プロジェクト)単位の SLO と「5 エラーのルール」を提示する。
## 主要メッセージ
- GCE は巨大な制御プレーンである(2021 年: 81 リソース・423 API メソッド・33 リージョン・96 ゾーン)。SLO 数はその積として自然に爆発する(p.15–16)。
- **レイテンシ SLO のトリック**(p.8–13): P90 SLO を「ターゲット以内のリクエスト数 / 総リクエスト数」として実装し、P90 なら目標値を 90% に設定する。これで複数 API・複数リージョンのレイテンシを可用性 SLI と同じカウンタ基盤で集計できる。
- **集計 SLO の限界**(p.17–19): Rachel Kroll「あなたの 9 はわたしの 9 ではない」——プロバイダのダッシュボードが 99.999% で緑のまま、個別顧客のビジネスは崩壊している状態が現実に起こる。
- **5 エラーのルール**(p.21–22): 少トラフィック顧客への 99.95% SLO 一律適用は不合理。`target = 1 - 5 / total_requests` とすることで 1,000 リクエストなら 99.5%、1 万リクエストなら 99.95% と動的に目標を設定する。
- **per-project SLO アーキテクチャ**(p.24): 宣言的 SLO 定義 → ヒストグラムの実体化 → Per-project SLI → Per-project SLO × 複数集計ビュー。
- **運用ダッシュボード**(p.25–27): 「エラーバジェットを超過したが既知バグがない SLO(= 未知の問題)」「集計では健全だが多数のプロジェクトが逸脱している SLO」「最も多くのプロジェクトを侵害しているバグ」を独立して可視化する。
## 視覚的に重要な図表
**p.14: 最初期の約 30 SLO**
![[_attachments/srecon22emea-palcuie-30-to-30m-slos/page-014.png]]
リージョン(us-central1, europe-west1, asia-east1 等)× ゾーン × {可用性, 典型レイテンシ, テールレイテンシ} で約 30 個を構成。各格子が 1 SLO。
**p.16: GCE の複雑性成長**
![[_attachments/srecon22emea-palcuie-30-to-30m-slos/page-016.png]]
2016→2021 の 5 年間でリソース 43→81、API メソッド 97→423、リージョン 9→33、ゾーン 20→96 へ拡大。SLO が「API × リージョン × SLO タイプ」の直積として増えることを説明する。
**p.22: 5 エラーのルール(グラフ+表)**
![[_attachments/srecon22emea-palcuie-30-to-30m-slos/page-022.png]]
横軸=リクエスト数、縦軸=SLO ターゲット。5 エラー固定で 10 リクエストなら 50%、100 なら 95%、1 万なら 99.95% と収束する。少トラフィック顧客への公平な SLO 設定のための統計的根拠を提供する。
**p.24: per-project SLO 演算グラフ**
![[_attachments/srecon22emea-palcuie-30-to-30m-slos/page-024.png]]
SLO 定義(YAML-like コード)→ Materialize Definition → フロントエンド/バックエンドのレイテンシヒストグラム → Aggregate Latency Histogram / First Stage Frontend SLI → Second Stage Frontend SLI → Backend SLI → Per-project SLI → Per-project SLO & Per-scope SLI → (Per-method SLO / Per-scope SLO / Count of projects SLO per scope / Per-project SLO with issues)。宣言的定義から多層の集計ビューを実体化する設計。
## 概念・実体への接続
- [[サービスレベル目標]] — SLI/SLO/SLA の基本定義と per-customer SLO への拡張
- [[SLI-SLO段階的導入]] — 30 → 1,000 → 3,000 万という規模の進化軌跡
- [[エラーバジェット]] — per-project エラーバジェット消費の追跡
- [[Alex Palcuie]] — 登壇者
- [[Google]] — 発表組織
## 限界・不確実点
- transcript なし(動画 URL 未取得のため口頭説明は不明)。
- GCE 内部システム名「TI」(p.3)の意味不明(内部コードネームと推定)。
- date_published は 2022-10(SREcon22 EMEA 開催月)の近似値。正確な発表日は推定。
- SLO 数 "3,000 万" の内訳(API メソッド × リージョン/ゾーン × プロジェクト数 × SLO タイプ)は数値で示されているが、スライドに総数の明示はない(タイトルおよびプレゼン概要から)。