# Incident Groundhog Day
Navigation: [[index]] | [[インシデント管理]] | [[インシデントシミュレーション]]
**登壇者**: [[Hamed Silatani]]([[Uptime Labs]] 共同創業者 & CEO)
**イベント**: USENIX SREcon24 Europe/Middle East/Africa、2024-10-30、ダブリン
**時間**: 11:50–12:30 GMT(約40分、本編約30分)
**動画**: https://www.youtube.com/watch?v=AMDB0OV1cVs
## 概要
同じインシデントを二度経験することは事実上不可能であるという前提のもと、Uptime Labs が設計した「ステージドワールド(staged world)」実験で20名のインシデントマネージャーが同一のシミュレーションインシデントを個別に体験し、その応答行動を比較分析した講演。実験結果から、診断(Diagnostic)・治療(Therapeutic)・採用(Recruiting)・状態報告(Status/Reporting)という4カテゴリの活動パターンを抽出し、効果的な Incident Manager と非効果的な Incident Manager を分ける要因を議論する。
## 主要メッセージ
- **同じインシデントを二度経験することは不可能**: 日付・時刻・市場状況・関与する人物・ソフトウェアの変化・メンタルモデルがすべて異なる。「タイムマシンがなければ無理」とされてきた問いに、staged world 実験が近似解を提供する。
- **インシデントは組織・技術・人間の交差点にある**: 技術の境界と人間の境界は常に動いており、孤立した技術問題として扱うことはできない(ソシオテクニカルシステム観)。
- **解決時間は経験・能力と相関しない**: 1インシデントのみでは統計的に難しいが、SEV1と宣言した参加者と SEV2と宣言した参加者で解決速度に有意差はなく、むしろ重大度議論に費やした時間が長いほど解決に使える時間が短くなった。
- **治療的行動は診断シグナルに変わる**: たとえ失敗したロールバックでも「ペイメントサービスが問題でなかった」という新たな診断情報を即座に生み出す——これが治療活動の持つ「魔法の特性」。
- **「Resilience is a verb」** (Prof. [[David D. Woods]]):回復力は状態ではなく実践であり、staged world を通じた能動的な練習がその本体である。
## 映像で確認できる重要点
![[_attachments/srecon24emea-silatani-groundhog-day/frame-003.jpg]]
シナリオ設定: 午前6時、Black Friday、売上良好($$ 😊)・中立(😐)・不満(###😢)・回復(😊)という4状態が並列して表示される。eコマース企業がターゲット売上達成を控える繁忙期のリスク背景を可視化している。
![[_attachments/srecon24emea-silatani-groundhog-day/frame-005.jpg]]
「You never see the same incident twice」スライド。異なる要素として day / time of day / market conditions / people / third-party dependencies / The software's changed / mental models の7項目が列挙される。Spider-Man 互いを指差すミームは「同じように見えても実は異なる」ことを示す。
![[_attachments/srecon24emea-silatani-groundhog-day/frame-007.jpg]]
「What's a staged world?」定義スライド: Simulated Scenario / Enough fidelity to feel realistic / Designed to elicit expertise / There is no one solution の4特性。参照文献として "A Staged World [Woods and Hollnagel 2006]" と "Nexus Pipeline [?] / Nexus the.lab" が小さく表示される。
![[_attachments/srecon24emea-silatani-groundhog-day/frame-013.jpg]]
インシデントのタイムライン: Initial reports(トルコ・日本のユーザー1〜8%が問題)→ Investigation Begins(通貨サービス関連、原因不明)→ Error Found(APIキー障害、401 Unauthorized)→ Trigger(キャッシュリフレッシュが引き金)→ Time Challenge(25分以内に解決または中断)。
![[_attachments/srecon24emea-silatani-groundhog-day/frame-014.jpg]]
実験結果: **13/20**、13名が25分以内に解決(バーチャートは参加者ごとの解決時間の分布を示す)。
![[_attachments/srecon24emea-silatani-groundhog-day/frame-015.jpg]]
[[John Allspaw]](SREcon21)の4カテゴリ分類を借用: **Diagnostic**(信号吸収と推論)・**Therapeutic**(修正介入)・**Recruiting**(専門家・権限者の招集)・**Status/Reporting Activities**(必要悪)。
![[_attachments/srecon24emea-silatani-groundhog-day/frame-017.jpg]]
Diagnostic の重大度観察: 「Each of our players apart from 1 formally defined a severity. Not all using the term SEV1, some P1. Does it really matter?」バーチャートは SEV1 約8名、SEV2 約8名、SEV3 約1名、SEV4 約2名を示す。参照: Em Ruppe SREcon21 "what is severity but a lie agreed upon"
![[_attachments/srecon24emea-silatani-groundhog-day/frame-020.jpg]]
Recruiting の「Solo Artist vs Band Member」比較: 横軸が時間、バーが各通信を表す。Band Member はコミュニケーション頻度が高く、かつ早期に他者を巻き込む形で均一に分布している。
![[_attachments/srecon24emea-silatani-groundhog-day/frame-026.jpg]]
「Techniques We Observed」認知負荷低減(Cognitive Load Reduction)の4象限: 筋肉記憶とテンプレートで精神的努力を最小化 / 重大度に過剰エネルギーを費やす(アンチパターン) / ステークホルダー宥め(アンチパターン) / チームを活用して調整する。
![[_attachments/srecon24emea-silatani-groundhog-day/frame-029.jpg]]
締めの引用「Resilience is a verb」(Prof. David D. Woods)。4つの絵文字リキャップ: 筋肉(筋肉記憶・テンプレート)・警告(重大度ドレイン)・通知(ステークホルダー宥め)・チーム(バンドメンバー協働)。
## 口頭説明・補足
### 実験設計の詳細
- **被験者**: 20名のインシデントリスポンダー(さまざまな経験レベル、複数社から)。ステークホルダーではなくインシデント解決者。
- **シナリオのリアリティ確保**: エンジニアはコマンドラインやSSHに飛び込み技術詳細を確認するため、モックではなく実際のスタックが必要だった。AWS + Kubernetes 上で動く eコマース「Online Boutique」を実際に動作させ、本当に壊れている状態を作った。
- **オブザーバビリティツールの一致**: 監視ツールが表示するメトリクスがシステムの実際の状態と一致している必要があった——これを学ぶのに苦労した。
- **社会的環境**: AIボットチームを組成し、1名の人間参加者が「You = Incident Manager」としてリアルな組織環境(経験浅いエンジニア・自信過剰なエンジニア・要求するステークホルダー等)を体験できるようにした。
- **コミュニケーションチャネル**: Slack のインシデントブリッジを使用。
### シナリオの root cause
「Schrodinger's plates」と呼ぶシナリオ——皿がキャビネットの中で「壊れているが壊れていない」状態と同様に、システムの潜在条件(latent conditions)が重なって問題が顕在化した。具体的には:
1. 数時間前に APIキー・シークレットキーの変更がデプロイされた(変更)
2. エンジニアの Shay が日課のキャッシュリフレッシュを実行(引き金)
3. これらが重なり 401 Unauthorized エラーが発生し、通貨サービス関連で1〜8%のユーザーに影響
解決策はキャッシュリフレッシュ後に APIキーを正しく設定すること。多くの参加者はまずペイメントサービスのロールバックを試みたが効果がなく、それにより「問題はペイメントサービスではない」という診断情報を得た。
### Diagnostic: 信号の洪水
インシデント中に参加者に届く信号の量は膨大で、重要な信号を見落とすことが容易だった。Silatani は CrowdStrike インシデントの事例を引用: オフィスのエンジニアが原因究明に必死なとき、背後の BBC テレビが CrowdStrike の原因を報じていたが誰も気づかなかった。インシデント前の変更もシグナルの一種。
### Therapeutic: 治療的行動の診断的側面
「治療的行動は診断に変わる」— ペイメントサービスのロールバックを試みた参加者は数分後にそれが効果がなかったことを知り、「問題はペイメントサービスではない」という貴重な診断情報を得た。これはロールバックしなかった参加者には得られない情報だった。
### Recruiting: Solo Artist vs Band Member
- **Solo Artist**: すべての負担を一人で抱え、ログを渡り歩きながら独力で解決しようとする。「英雄」型(Dario の前日講演での言葉を引用)。非常にストレスが高い。
- **Band Member**: 早期に他のチームメンバーを巻き込み、ワークロードとアイデアを分散する。例: 「調査チームを作りましょう: Shay、Hannah、Bob、Daniel、Tanya」と最初期に Slack でアナウンスした参加者。
- 将来の実験では参加者のストレスレベルと「自分がコントロールできていると感じた度合い」を測定したい(今回は未実施・後悔している点)。負荷分散とストレス・コントロール感の相関が仮説として示される。
### Status/Reporting Activities: 必要悪のパラドックス
インシデントの解決に直接寄与しないが、外部ステークホルダーへの情報共有は避けられない。「情報共有に費やす時間が増えるほど、実際の解決に使える時間が減る」というパラドックス。
効果的な対処法として紹介された**テンプレート**:
- **Incident Notification**: 問題の目的(トルコ・日本ユーザーが注文不可)
- **Incident Reference**: ITSM ツールの参照番号(追加情報はそちらへ)
- **Current Status**: 現在知っていること(これ以上聞かれても今は答えられない)
- **Next update**: 次の更新時刻(それまでは追いかけてくるな、の丁寧な言い方)
このテンプレートを使った参加者は「ステークホルダー宥め(stakeholder appeasement)」に費やす認知負荷を最小化し、インシデント解決に集中できた。
### What's next
実験の次ステップとして3つを提示:
1. **Team Groundhog Day**: Uptime Labs 外から複数の人間が一緒にインシデント対応する(リアルなチームワーク)
2. **No time limit**: 25分制限を撤廃
3. **Test with folks in different roles**: Incident Manager 以外の役割でも試験
## 概念・実体への接続
- [[インシデントシミュレーション]] — staged world の定義と実験設計の詳細を収録
- [[インシデント重大度評価]] — SEV1 vs SEV2 で解決速度に差なし、議論に費やした時間が鍵という知見を追加
- [[Incident Commander]] — Solo Artist vs Band Member の分類、認知負荷低減の技法を追加
- [[インシデント管理]] — Allspaw の4カテゴリ(Diagnostic / Therapeutic / Recruiting / Status/Reporting)
- [[レジリエンスエンジニアリング]] — "Resilience is a verb" (David D. Woods)
- [[John Allspaw]] — SREcon21 の4カテゴリ分類を本実験が借用
- [[David D. Woods]] — staged world の理論的起源(Woods & Hollnagel 2006)と締めの引用
## 限界・不確実点
- 動画本体は一時取得のみで vault 保存なし。YouTube 自動字幕を使用(固有名詞の一部に誤りが生じる可能性)。
- 実験の参加者数が20名と少なく、1回のインシデントシナリオのみのため統計的結論は限定的。Silatani 自身も言及。
- 「解決時間と経験の相関なし」という発見は今後の large-scale 実験での追確認が必要。
- 「staged world」の理論的出典 "Woods and Hollnagel 2006" の具体的書籍名は映像からは読み取れず未確認。
- Bot チームとの違い(全員がシナリオを知っている)という実験設計上の制約が本物のチームワークを再現できていない。