# SLO Engineering Case Studies
Navigation: [[index]] | [[overview]]
## 概要
Google の Customer Reliability Engineering(CRE) チームと協働した Evernote と The Home Depot の SLO 導入事例である。Evernote は物理データセンターから Google Cloud Platform へ移行する過程で、顧客がコンテンツへアクセスし同期できることを中心に、月次 99.95% 稼働率の単純な初期 SLO を定義した。The Home Depot はマイクロサービス化とフルスタック所有文化への移行に合わせ、VALET(Volume, Availability, Latency, Errors, Tickets) という社内用語体系と自動収集基盤を整備し、1 年未満で SLO 対応サービスを 0 から 800 へ増やした。
この章の中核は、SLO 文化が「測定値」ではなく「共通意思決定フレーム」であるという点だ。Evernote では SLO が開発チーム・運用チーム・Google CRE の間で主観的な品質判断を減らし、リリース窓や障害対応の優先順位を定量化した。The Home Depot では SLO が依存サービス間の信頼性・レイテンシ・容量・計画停止の会話を標準化し、開発マネージャの目標にも組み込まれた。
## 主要主張
- SLO は SRE モデルの中心であり、CRE の顧客支援でもほぼすべての対話が SLO から始まり SLO に戻る。
- Evernote の事例では、最初から完全な SLO を目指さず、ユーザー視点の主要行動を代表する単純な稼働率 SLO を選び、月次レビューと半年ごとの見直しで改善した。
- Evernote は GCP のグローバルな可用性指標だけに依存せず、自社 SLO と実時間ダッシュボードを Google CRE と共有した。これにより、クラウド全体では小さく見える地域的影響も Evernote の顧客影響として扱えるようになった。
- The Home Depot は SLO 導入を技術施策だけでなく、共通語彙、啓発、SLI 自動収集、管理職の年次目標という人・プロセス・技術の総合施策として実装した。
- VALET は 4 つのゴールデンシグナルを企業内で使いやすい形へ拡張した枠組みであり、チケット数を「手動介入を要した度合い」として残す点が特徴である。
- SLO はサービス全体の健全性を示すだけでなく、事業責任者が信頼性の投資段階を選ぶための境界オブジェクトとして機能する。
## 章の構造
### Evernote の SLO 事例
- 背景: 2.2 億以上のユーザー、120 億以上の情報、750 以上の MySQL インスタンスを持つサービス。
- 課題: 伝統的な運用・開発分離により、運用品質保護と機能開発速度が対立していた。
- 初期 SLO: 月次 99.95% 稼働率。ステータスページを外部プローブで毎分監視し、地理的に分離した 2 回目のプローブで失敗確認後にダウン扱いとした。
- 運用: Evernote と Google が月次 SLO レビューを行い、障害深掘りと改善アクションを設定した。メンテナンス時間もユーザー視点ではダウンタイムとして扱った。
- 効果: リリース窓を 5 回から 2 回へ減らすなど、顧客影響を定量化して意思決定できるようになった。
- クラウド事業者との連携: Evernote の SLO 影響を Google CRE が共有ダッシュボードで見たことで、一般的な GCP 通知ではなく「Evernote SLO に 5% 影響」のような文脈付き対応が可能になった。
### The Home Depot の SLO 事例
- 背景: 2,200 超の店舗、35,000 超の商品、40 万弱の従業員、年間 15 億超の顧客取引、オンライン 20 億超訪問を支える小売企業。
- 課題: 集中支援チームとモノリスから、マイクロサービスと小チーム所有へ移行したが、依存サービスの信頼性・レイテンシ・容量を共有する言語がなかった。
- 導入戦略: 共通語彙、啓発、SLI 自動収集、管理者インセンティブの 4 領域で SLO 文化を作った。
- VALET: Volume, Availability, Latency, Errors, Tickets の 5 カテゴリ。可用性・レイテンシは API 呼び出し単位、エラーは 5xx を SLO 対象、チケットは手動介入の代理指標とした。
- 自動化: BigQuery 上の TPS Reports がログや監視データを処理し、VALET サービスとダッシュボードへ日次・週次・月次の傾向を集約した。
- 展開: 約 50 サービスから開始し、年末には 800 サービス、月 50 サービス程度の増加へ拡大した。
- 次段階: エラーバジェット文化、詳細エンドポイント別 SLO、利用者別 SLO、展開前の VALET 許容範囲チェック、依存関係グラフとの接続。
## 既存 SRE Book との関係
- [[@2016__OReilly__SRE Book - Chapter 3 Embracing Risk]] のエラーバジェット思想を、Google 外の 2 組織が現実の移行・組織変革へ適用した実例である。
- [[@2016__OReilly__SRE Book - Chapter 4 Service Level Objectives]] の SLI/SLO/SLA 定義を、Evernote は単純な外形監視ベースの稼働率へ、The Home Depot は VALET という企業内分類へ翻訳した。
- [[@2016__OReilly__SRE Book - Chapter 6 Monitoring Distributed Systems]] の 4 つのゴールデンシグナルは、The Home Depot の VALET に近い。ただし VALET はチケットを加え、運用品質・手動介入の度合いを SLO 会話へ持ち込む。
- [[@2016__OReilly__SRE Book - Chapter 5 Eliminating Toil]] との接点は、The Home Depot が SLO データ収集とレポートを自動化し、表計算ベースの手作業を減らした点にある。
## 重要概念候補
- [[サービスレベル目標]]: 事業・開発・運用が共有する信頼性目標。Evernote と The Home Depot の事例を横断的知見へ追記候補。
- [[エラーバジェット]]: SLO 未達時の改善優先順位や機能停止判断へつなげる仕組み。The Home Depot は次段階として Google 型のエラーバジェット文化を志向する。
- [[SLO文化]]: SLO を単なる指標ではなく、語彙、教育、レビュー、インセンティブを含む組織文化として導入する概念。新規 concept 候補。
- [[Customer Reliability Engineering]]: Google CRE が顧客の SLO 設計と共有ダッシュボードを通じてクラウド事業者と顧客の信頼性責任をつなぐ。
- [[VALET]]: The Home Depot の SLO 枠組み。Volume / Availability / Latency / Errors / Tickets。
- [[共有SLOダッシュボード]]: 顧客とクラウド事業者が同じ SLO 影響を見ることで、一般的なクラウド指標から顧客固有影響へ焦点を移す設計。
- [[マイクロサービス依存関係管理]]: The Home Depot がサービス間の信頼性・容量・レイテンシの透明性を必要とした背景。
## 実体候補
- [[Google SRE]]
- [[Google Cloud Platform]]
- [[Google CRE]]
- [[Evernote]]
- [[The Home Depot]]
- [[Ben McCormack]]
- [[William Bonnell]]
- [[Garrett Plasky]]
- [[Alex Hidalgo]]
- [[Betsy Beyer]]
- [[Dave Rensin]]
- [[Pingdom]]
- [[BigQuery]]
- [[Stackdriver]]
- [[Cloud SQL]]
- [[TPS Reports]]
- [[FiRE Academy]]
## 統合時に更新すべき既存ページ候補
- [[SRE]]: SRE 原則が Google 外の企業に適用され、組織横断の共通言語として機能した事例を追加。
- [[SRE Book]]: SRE Workbook の実践編として、2016 年版の原則を外部企業事例で補強する位置づけを追加。
- [[サービスレベル目標]]: Evernote の「不完全でも開始し定期改訂する SLO」と The Home Depot の VALET を横断的知見へ追加。
- [[エラーバジェット]]: SLO 未達時の改善優先順位、機能開発停止の次段階、クラウド事業者との共有責任の事例を追加。
- [[テレメトリ]]: VALET / TPS Reports のログ・監視データ集約とサービス依存グラフの構想を接続。
- [[マイクロサービスアーキテクチャ]]: サービス間 SLO 公開が依存関係の信頼性契約として機能する点を追加。
## 未解決の問い
- VALET の Tickets 指標は、トイルや手動介入の代理指標として一般化できるか。それとも The Home Depot 固有の歴史的指標にとどまるか。
- クラウド事業者と顧客が共有する SLO は、責任境界を曖昧にするのではなく、どの条件で責任共有を改善するか。
- 事業責任者が SLO レベルを選ぶとき、信頼性投資の費用対効果をどのように提示すべきか。
## 出典
- Raw: `.raw/articles/slo-engineering-case-studies-2026-06-07.md`
- URL: https://sre.google/workbook/slo-engineering-case-studies/