# How Atlassian Is Tackling Error Budgets, Agile Style
## 概要
Atlassian の SRE チームリード Gui Vieiro が SREcon Asia 2018 で発表した、エラーバジェットの段階的(アジャイルスタイル)導入事例。「開発停止」という重い仕組みを最初から適用するのではなく、SLO 達成率の週次可視化・ブログ公開・「13 週中 7 週未達でアクション」という緩いトリガーから始め、翌四半期に基準を引き上げる繰り返しにより、Identity チームで SLO 達成率の顕著な回復を達成した。
## 主要メッセージ
- **Dev Mindset と SRE Mindset の対立を突破するために「Think Agile」**: 完璧な仕組みを一度に入れようとせず、段階的に価値を示して組織の賛同を得る (p.20, p.22)
- **可視化が先**: 週次 SLO 達成率をページ/ブログで公開する「Make It Visible」が受容の起点 (p.23)
- **Error Budgets 0.1**: 最初は開発を止めず、SLO 達成と信頼性改善チケットを並行させる形で始める (p.26)
- **SLO 達成率は回復した**: July-September の下降トレンドから、Error Budget 導入後の October 以降に 85-100% へ回復 (p.36)
## 視覚的に重要な図表
**p.18 SLO 達成率と感情の推移表**
![[_attachments/2018__SREcon18Asia__How-Atlassian-Is-Tackling-Error-Budgets-Agile-Style/page-018.png]]
週次 SLO 達成率が Week 1: 81% → Week 4: 67% と連続下降し、チームの感情が Interested → More Interested → Concerned → Worried へと変化する様子を示す。この可視化が Error Budget 導入の動機となった。
**p.26 Going From Buzz To Process(アジャイル導入の 3 ステップ)**
![[_attachments/2018__SREcon18Asia__How-Atlassian-Is-Tackling-Error-Budgets-Agile-Style/page-026.png]]
1. Head of Engineering との会話で Error Budgets を「SLO 達成を促す手段」として再ブランド化、2. Start Small — 最も未達のチームにフォーカス、3. Error Budgets 0.1 — 開発を止めず信頼性チケットを並行して積む形で開始。
**p.29 懸念すべき SLO 達成率トレンド(7月〜9月)**
![[_attachments/2018__SREcon18Asia__How-Atlassian-Is-Tackling-Error-Budgets-Agile-Style/page-029.png]]
Worrisome Trend: July 初頭~65% → 一時 ~92% のピーク後に下降、September には ~67% 前後で推移。Error Budget 導入の定量的背景。
**p.30 Error Budgets プロセスの詳細(Action)**
![[_attachments/2018__SREcon18Asia__How-Atlassian-Is-Tackling-Error-Budgets-Agile-Style/page-030.png]]
- **Trigger**: サービスが四半期 13 週中 7 週以上 SLO 未達
- **Process**: サービスオーナーが原因を調査・文書化 → バックログチケット生成 → デリバリー日コミット → Will に承認 → 期日に SLO 達成状況レビュー
- **Iterate**: 翌四半期は 5 週以下の未達を目標に基準を引き上げる
**p.36 回復後の SLO 達成率トレンド(7月〜翌 4 月)**
![[_attachments/2018__SREcon18Asia__How-Atlassian-Is-Tackling-Error-Budgets-Agile-Style/page-036.png]]
Awesome! Error Budget 導入後の October 以降、SLO 達成率が ~60% の底から回復し、January 以降は概ね 85-100% を維持。青い矢印が October と January の反転を示す。
## Atlassian SRE 組織コンテキスト
Atlassian SRE は「Observe / Prevent / Improve / Fix」の 4 機能を担う (p.7)。アーキテクチャは Products → Micro Services → Platform as a Service → Cloud Infrastructure Partner の 4 層 (p.5)。当時 SRE として 2016 年参画した Vieiro が Identity チームの信頼性改善を担当。
## 導入の経緯
- **発火点**: SLO 達成率が 4 週連続下降 (81% → 74% → 70% → 67%) し、チームの懸念が高まった (p.10–18)
- **Google SRE Book の定義** を起点に Error Budget を提示したが、Dev チームとの Mindset gap が障壁となった (p.3, p.19–20)
- **Agile アプローチの採用**: Head of Engineering に「SLO 達成率を高める方法」として再提案 (p.24)
## 可視化とブログの役割
Atlassian の「Performance ratings tied to number of likes on blogs」文化を活用し、Error Budget ブログを Confluence に公開 (p.31–32)。FY18Q1 のバジェット条件(13 週中 8 週未達でスコープ)を透明化。ブログは単なる記録でなく、組織内の共通言語を形成する役割を果たした。
## 成功例と失敗例
- **Good Result**: サービスオーナーが Action Required に応じ、調査・修正計画・承認を経て改善 (p.33)
- **Not So Good Result**: 「このサービスは移行予定なので投資しない」という応答が承認された (p.34)。一見失敗に見えるが、「この状態を組織として認識・承認した」という透明性の確保は価値があった。
## 組織的成果と次のステップ
Error Budget 導入後の変化として SLO 達成率向上・ツーリング整備・文化変容の 3 点を挙げた (p.38)。次のステップは「Error Budgets take #2: Set a higher bar」(p.37) ——段階的に基準を引き上げ、最終的には Google SRE Book が説くような本格的な開発凍結トリガーへと発展させる計画。
## 概念・実体への接続
- [[エラーバジェット]] — 本スライドのエラーバジェット 0.1 アプローチは段階的導入の実践例
- [[サービスレベル目標]] / [[SLI-SLO段階的導入]] — 週次可視化と段階的ポリシー拡大
- [[Gui Vieiro]] / [[Atlassian]]
## 限界・不確実点
- transcript なし。口頭説明の詳細(特に「Not So Good Result」を承認した理由の背景)は不明。
- SLO 達成率グラフ (p.29, p.36) の縦軸は「SLO を達成したサービスの割合 (%)」だが、Identity チームのサービス総数は不明。
- Error Budget 発動後のデリバリー日コミット・承認フローの詳細はスライドで一部黒塗りされている (p.32–34)。