## 定義 エラーバジェットとは、SLO で許容される障害量の上限を「予算」として扱い、開発チームと SRE が共有する信頼性管理の仕組みである。SLO が 99.9% ならば 0.1% のエラーバジェットを持ち、この予算の範囲内で新機能のリリースや変更を許容する。予算を消費しきった場合はリリースを凍結して信頼性改善に集中する。Ben Treynor Sloss が Google SRE で体系化した (Source: [[@2016__OReilly__SRE Book - Chapter 1 Introduction]], [[@2016__OReilly__SRE Book - Chapter 3 Embracing Risk]])。 主要な原則: - 100% の可用性を追求しない——ユーザーは 99.99% と 99.999% の差を検知できない - 信頼性改善のコスト曲線は非線形であり、各増分が前回の 100 倍のコストを要する - 開発速度と信頼性の対立を共通インセンティブに変換する仕組みとして機能する - 四半期ベースで SLO に基づき設定する - [[Google]] はアップタイムでなくリクエスト成功率で計測する——分散システムは部分的に稼働し続けるため、バイナリなアップ/ダウンは不適切 ## 横断的知見 - **SLI/SLO/SLA 体系とエラーバジェットは相補的である**: [[サービスレベル目標]] の SLI/SLO/SLA 体系が「何を約束するか」を定義し、エラーバジェットが「約束をどう運用するか」を担う。SLO 単体では目標が形骸化しうるが、エラーバジェットが予算消費という可視的な制約を導入することで、信頼性の維持が開発チームの自己利益に組み込まれる (Source: [[@2016__OReilly__SRE Book - Chapter 3 Embracing Risk]], [[@2016__OReilly__SRE Book - Chapter 4 Service Level Objectives]])。 - **Hamilton (2007) の「SLA を設計段階の酸性試験とする」原則とエラーバジェットは同方向を指す**: Hamilton は SLA を可用性メトリクスの議論以前に、サービス設計の酸性試験(任意のサーバをいつでもワークロードのドレインなしに停止でき、かつ SLA を満たせるか)として定義した。SLA/SLO を設計判断の制約として組み込み、信頼性を事後の測定でなく事前の設計に内在化させる点で、エラーバジェットの「予算の範囲で変更を許容する」運用設計と同じ思想を共有する (Source: [[@2016__OReilly__SRE Book - Chapter 3 Embracing Risk]], [[@2007__LISA__On Designing and Deploying Internet-Scale Services]])。 ## 未解決の問い - エラーバジェットは人間の開発チームと SRE の協調を前提とする。[[agentic SRE]] でエージェントが自律的に緩和する場合、エラーバジェットの消費判断と凍結判断は誰が/何が行うか。 - エラーバジェットの粒度(四半期・月次・週次)は機能リリース頻度に依存するが、CI/CD の高速化でリリース頻度が桁違いに上がった現在、四半期バジェットは適切か。 ## 関連 - ソース: [[@2016__OReilly__SRE Book - Chapter 1 Introduction]] / [[@2016__OReilly__SRE Book - Chapter 3 Embracing Risk]] / [[@2016__OReilly__SRE Book - Chapter 4 Service Level Objectives]] / [[@2007__LISA__On Designing and Deploying Internet-Scale Services]] - エンティティ: [[SRE Book]] / [[Google]] / [[Ben Treynor Sloss]] - 概念: [[サービスレベル目標]] / [[agentic SRE]] / [[インシデント管理]] - 関連 MOC: [[structures/SRE - MOC]] / [[structures/LLM4SRE - MOC]] ## 出典 - [[@2016__OReilly__SRE Book - Chapter 1 Introduction]](SRE の定義、50% ルール、エラーバジェットの導入) - [[@2016__OReilly__SRE Book - Chapter 3 Embracing Risk]](エラーバジェットの体系的定義、100% 可用性の非追求、非線形コスト曲線、リクエスト成功率での計測) - [[@2016__OReilly__SRE Book - Chapter 4 Service Level Objectives]](SLI/SLO/SLA の実践的定義とエラーバジェットの運用)