# Embracing the Multi-Party Dilemma: Incident Response Across Company Boundaries
## 概要
[[Sarah Butt]]([[SentinelOne]] SRE)と [[Alex Elman]]([[Indeed]])による USENIX SREcon23 EMEA(2023年10月、ダブリン)講演。組織の境界を越えたインシデント対応、すなわち顧客企業とベンダー企業(あるいは社内の異なるチーム間)が協働してインシデントに対処する際に生じる構造的な困難を「多者間ジレンマ(Multi-Party Dilemma)」という語で概念化する。Indeed で 2021 年に実施した Learning from Incidents(インシデントからの学習)実践のテーマ分析から出発し、課題・主要な知見・対処のための予備的な考察を提示する。
## 主要メッセージ
- Multi-Party Dilemma は「相互依存する当事者間の組織的境界で生じる課題を記述するパターン」であり、Woods 曰く「法則的な現象(law-like phenomenon)」に近づきつつある(口頭説明: Dave Woods との最新の会話に基づく)。
- パターンの特徴は非対称性(asymmetry)——情報非対称性・影響非対称性・時間的非対称性——、協調コストの増大、目的の不整合(mission misalignment)の可能性である。
- この現象自体は必ずしも悪いものではなく、スケールと複雑性の増大に対する組織の適応的な反応(アウトソーシング・チーム分割)として捉えるべきである。
- インシデント対応中、顧客組織とベンダー組織という2つの官僚制(bureaucracy)の間に、自発的に第三の「一過性組織(transient organization)」が形成され、意思決定がより多中心的な統治モデル(polycentric governance model)——専門知識を持つ実務者に権限が移る形——へと移行する。
- 双方向の深いエンジニアリングレベルの情報共有(bi-directional information flow)が、片方だけでは把握し得ないリスクの発見に決定的な役割を果たす(CDN ベンダーの事例)。
## 映像で確認できる重要点
- ![[_attachments/srecon23emea-butt-multi-party-dilemma/frame-006.jpg]]
frame-006(© 2020 Alex Elman)は「The Prevent & Fix cycle」と題した図で、時間軸に対する「安全への注意(Focus on safety)」の推移を示す。大規模インシデント(爆発アイコン)の直後に安全への注意が急上昇し、その後徐々に減衰して次のインシデントで再び急上昇する、という鋸歯状の反復パターンを描く。口頭説明では、これを「トレッドミルのように、たくさん働いても前に進まない」後ろ向き(backward-facing)なプロセスだと対比し、これに対して前向き(forward-looking)な「Learn and adapt to reinforcing loop」を提示する語りの導入として使われている。
- ![[_attachments/srecon23emea-butt-multi-party-dilemma/frame-007.jpg]]
frame-007(© 2023 Alex Elman, Sarah Butt)は、複数のインシデント(爆発アイコン)それぞれに対して「Analysis(分析)」ボックスが並び、その下に鍵穴(Keyhole)を覗き込む目のイラストが描かれた図。口頭説明によれば、個々のインシデント分析は「インシデント自体を見ている」のではなく、インシデントを鍵穴(keyhole)として使って組織を覗き見ているというメタファーであり、これを継続的に繰り返すことで組織の中の見えていなかった構造が徐々に明らかになっていく、という考え方を視覚化したものである。
- ![[_attachments/srecon23emea-butt-multi-party-dilemma/frame-012.jpg]]
frame-012(© 2023 Alex Elman, Sarah Butt)は「"Our System"」「"Their System"」という2つの箱が並び、その中央に楕円形で「Actual System」と書かれた図。口頭説明では、多くの人が「うちのシステム」「相手のシステム」を独立・分離したものとして語りがちだが、技術的なビットとバイトのレベルでは実際には1つの統合されたシステムであり、それゆえに双方向の情報共有が重要になる、という論点を裏付ける図として提示された。
- ![[_attachments/srecon23emea-butt-multi-party-dilemma/frame-017.jpg]]
frame-017 は「Challenges and Key findings」と題したまとめスライドで、7項目——「Legal, financial, and privacy concerns(法務・財務・プライバシー上の懸念)」「Hidden dependencies(隠れた依存関係)」「Coordination costs(協調コスト)」「Mission misalignment(目的の不整合)」「Information Sharing is Key(情報共有が鍵)」「Bringing expertise to bear(専門知識の投入)」「Awareness of friction in the system(システム内の摩擦への気づき)」——を列挙する。口頭説明のこれまでの議論を要約する形で画面に一致する内容が示されている。
- ![[_attachments/srecon23emea-butt-multi-party-dilemma/frame-018.jpg]]
frame-018 は「Considerations」と題したスライドで、「Traceability of incident data is key(インシデントデータのトレーサビリティが鍵)」「Partnerships formed in advance(事前に構築されたパートナーシップ)」「Discussions both before and after the incident(インシデント前後の対話)」「Identify existing informal networks of expertise(既存の非公式な専門知識ネットワークの特定)」の4項目を提示する。
- ![[_attachments/srecon23emea-butt-multi-party-dilemma/frame-019.jpg]]
frame-019 は同じく「Considerations」の続きで、ベンダーに投げかけるべき具体的な問い——画面を共有してもらえるか、設計レビューに専門家を招けるか、サポートエンジニアに1日同行できるか、レトロスペクティブやスプリント計画にベンダーのスタッフを招待できるか、本番環境のバージョンやアーキテクチャ図を開示できるか、契約をどう変更すべきか——を箇条書きで列挙する。
- ![[_attachments/srecon23emea-butt-multi-party-dilemma/frame-020.jpg]]
frame-020 は「Acknowledgements」スライドで、謝辞の対象組織として「Indeed Learning from Incidents Team」「Salesforce Centralized Incident Response」「SentinelOne Site Reliability Engineering」「OSU Cognitive Systems Engineering Lab」を列挙し、個人名として Dr. [[David D. Woods]]、Deborah Donoghue、Jason Koppe、[[John Allspaw]]、Dr. [[Laura Maguire]]、Dr. Mike Rayo、Morgan Collins、Neil Laughlin、Nora Jones、Dr. [[Richard I. Cook]] を挙げる。Salesforce と SentinelOne の両方が謝辞に含まれていることから、登壇者(特に Sarah Butt)がこの研究に関わった時点で複数の所属組織にまたがる協働があったことがうかがえる。
## 口頭説明・補足
- **背景と研究方法**: この現象は Alex Elman と Sarah Butt が、John Allspaw と Dave Woods が2021年頃に使い始めた「multi-party dilemma」という語を耳にしたことに端を発する。Indeed では Adaptive Capacity Labs から訓練を受けたインシデント分析手法(8段階、ステップ8が thematic analysis)を一部のインシデントに対して適用しており、2021年に十数件のインシデントを対象とした分析の中で、事業クリティカルな第三者(サードパーティ)への依存に関するテーマが群を抜いて頻出したことから、この多者間ジレンマという主題を掘り下げるに至った。
- **テーマ(theme)の位置づけ**: 講演内では、テーマはインシデントの「原因」ではなく、インシデントを通じて発見される組織の特徴(risk or opportunity)であると強調される。ITIL 的な「問題」の考え方とは異なり、テーマは特定のインシデントに固有ではなく、複数のインシデントで繰り返し観測されることで組織にとっての重要性が裏付けられる。
- **Prevent and Fix Cycle との対比**: 従来型の事後対応的(backward-facing)なインシデント対応サイクル(サプライズ→対応の急増→安全意識の減衰→次のサプライズ)を「Prevent and Fix cycle」と呼び、これに対して継続的にインシデントを「鍵穴」として組織を覗き見て学習を蓄積する「Learn and adapt to reinforcing loop」を対比させる。後者を反復すると、個別インシデントからは見えなかった組織の広範な構造が徐々に明らかになっていく、と説明される。
- **課題・主要な知見(Alex Elman による具体的エピソード)**:
- *法務・財務・プライバシー上の障壁*: 情報を境界を越えて共有することへの組織的な躊躇(法的リスク・プライバシーリスク・セキュリティリスクへの懸念)は正当な緊張関係だが、近年は詳細な公開ポストモーテムの増加やベンダーとの対話の深化により、徐々に情報共有が進みつつある。ある事例では、ベンダーに「不完全な情報でもいいので分かった時点で教えてほしい」と依頼したところ、実際にベンダーからのインシデント連絡(不完全な情報)が2時間後に発生した自社側のインシデントの原因特定と早期の影響回避に直接役立った。
- *隠れた推移的依存関係(hidden/transitive dependencies)*: 自社が直接依存していないベンダーであっても、自社の直接のベンダーがそのベンダーに依存している場合があり、システムは「自社+ベンダー+ベンダーのベンダー(+ベンダーのマルチテナント顧客)」という広がりを持つ。
- *協調コスト(coordination costs)*: ベンダーをインシデントに巻き込むことは有効な手段になり得るが、コンテキストを十分に持たない追加のステークホルダーを迎え入れることには、それ自体にコストが伴う。
- *目的の不整合(mission misalignment)の実例*: 過去のデータベースクラスタ障害の事例で、自社(Indeed)は「求職者に仕事を提供する」というミッションのもと一刻も早い復旧(データベースの再起動)を望んだが、データベースベンダーは自社製品の信頼性・堅牢性の観点から、再起動前にデバッグ情報を取得したいと要望し、時間的な切迫感の非対称性(temporal misalignment)とミッションの不整合が重なって協働を難しくした。最終的に再起動を選び障害は解消したが、追加のデバッグ機会は失われた。
- *一過性組織(transient organization)の形成*: インシデント対応中、顧客組織とベンダー組織という2つの官僚制の間に第三の一過性組織が自発的に形成され、時間圧力と不確実性が支配的な状況下では、意思決定の権限が官僚(bureaucrat)からその場の専門知識を持つ実務者(subject matter expert)へと移る、より多中心的な統治モデル(polycentric governance model)が機能するようになる。この一過性組織内では、参加者が共通基盤(common ground)を維持することに苦労する(目標を共有しているか、情報がどう流れるか、誰が意思決定権を持つかが必ずしも明確でない)。
- *双方向情報共有の実例(CDN ベンダー)*: ある非常に novel(新規性の高い)なバグに対し、影響を受けた顧客(自社が最大の被影響顧客だった)とベンダーの SRE チームが直接ブリッジ上で協働し、双方の設定変更を組み合わせることで影響を緩和できた。ベンダーはこの変更を他の顧客にも展開し、システム全体に余裕(headroom)を生んだ。さらに興味深いのは、その後自社側が「影響をさらに減らすための追加の設定変更案」をベンダーに提示したところ、ベンダー側が青ざめて強く止めたというエピソードである。自社側はバグがベンダー側でどう発現しているかを把握しておらず、その変更を実行していればリトライストーム(retry storm)を誘発し、初期の劣化状態よりもさらにシステムを大きく毀損していた可能性が高い、という。このやり取りがなければ「もっと悪い一日になっていたかもしれない」と Sarah Butt は振り返る。
- *サードパーティ専門知識の投入の難しさ*: ベンダーの専門知識を頼ることの価値(「専門家が白馬に乗って颯爽と現れ、問題を解決してくれる」という期待)とは裏腹に、専門知識自体が同心円状の複数階層のサポート層の奥に閉じ込められており、アクセスに時間がかかる上、実際にインシデントに投入された専門家がその時点までの調査状況や、対応先の技術がシステム内でどう位置づけられているかについてほとんどコンテキストを持たない、という構造的な問題がある。これは STELLA レポート(2017年、SNAFUcatchers Consortium)が指摘する「immediate かつ anomaly response が本質的に必要な作業では、専門家が十分なコンテキストを得ること自体が不可能な場合がある」という指摘と一致する。
- *摩擦(friction)の実例*: メッセージバスベンダーとのインシデント事例では、数時間かけてようやくサポートに連絡が取れた際、ベンダー側がトレースログの有効化を要求したことに対し自社側が一瞬「(ベンダーが)無能なのでは」と感じ、逆にベンダー側も自社の製品設定の仕方を見て同様に感じた、というエピソードが紹介される。ここから得られる教訓は、双方が無能である可能性は低く、「なぜそれをしたのか(why)」という非難めいた問いではなく「その時それはどう筋が通っていたのか(how did it make sense)」と問い直すことが摩擦の緩和につながる、というものである。
- **対処への予備的な提案(Alex Elman)**: インシデントデータのトレーサビリティの確保、重要なベンダーとの事前のパートナーシップ構築(共有 Slack チャンネル・ゲームデイなどを通じた作業様式・専門知識・メンタルモデルの共有)、インシデント前後での視点取得(perspective-taking)の対話、既存の非公式な専門知識ネットワークの特定と育成(過去にベンダー企業に勤務していた・そこに強いつながりを持つ社内の人材の活用)を挙げる。さらに、一見手が届かないと思われがちな依頼——ベンダーに画面共有してもらう、設計レビューに専門家を招く、サポートエンジニアに1日同行する、レトロスペクティブにベンダースタッフを招待する、本番バージョンやアーキテクチャ図を開示する、契約条項を見直す——を実際に尋ねてみることを推奨する(「最悪でも断られるだけだ」)。
- **今後の展望(Sarah Butt)**: 米国のある研究ラボ(具体名は口頭で明言されず)と提携し、業界横断でこの Multi-Party Dilemma を研究する取り組みを進めており、SRE 業界の経験・エピソードを広く収集するための QR コード付きフォームを紹介した(URL は画面のみの提示で本文には未記録)。
## 概念・実体への接続
- [[Multi-Party Dilemma]] — 本講演が主題として提示する中心概念(新規concept)
- [[Common Grounding]] — 一過性組織内での共通基盤維持の困難として言及
- [[Joint Activity]] — インシデント対応の協働構造の理論的背景
- [[インシデント管理]] — インシデント対応の実践知としての接続
- [[レジリエンスエンジニアリング]] — Adaptive Capacity Labs・STELLA レポートを通じた接続
- [[Laura Maguire]] — 「Managing the Hidden Costs of Coordination」を口頭で引用(協調コストの増大という論点)
- [[David D. Woods]] — 「multi-party dilemma」という語の共同提唱者、「law-like phenomenon」という評価の引用元
- [[John Allspaw]] — 「multi-party dilemma」という語の共同提唱者
- [[Richard I. Cook]] — 謝辞に記載
- [[Sarah Butt]] — 登壇者(SentinelOne SRE)
- [[Alex Elman]] — 登壇者(Indeed、新規entity)
- [[Indeed]] — Multi-Party Dilemma 発見の舞台となった組織
- [[SentinelOne]] — 登壇時点での Sarah Butt の所属
## 限界・不確実点
- 動画本編に Q&A セッションは含まれておらず(transcript は登壇者2名の発表パートのみで終了)、質疑応答の内容は確認できない。
- 代表フレームは全編2196.774秒に対して20枚(約110秒間隔)のサンプリングであり、「hypothetical 15-year company journey」の図(口頭説明で言及)など、フレーム間に含まれるスライドの一部は目視確認できていない。当該箇所の記述は transcript の口頭説明のみに基づく。
- transcript は whisper による自動文字起こしであり、人名の綴りに誤りの可能性がある。特に "John Alsbaugh" は文脈上 [[John Allspaw]] の誤認識と判断して訂正した。"Dr. McGuire" は [[Laura Maguire]] の誤認識と判断して訂正した。"Nile" という固有名詞的な言及(frame該当なし)は人物名か聞き取り誤りか特定できず、本文には反映していない。
- Sarah Butt の所属は 2021年の別講演([[@2021__SREcon21__When Systems Flatline - Enhancing Incident Response with Learnings from the Medical Field]])時点では Salesforce、本講演(2023年)の公式ページでは SentinelOne と記載されている。謝辞スライド(frame-020)に Salesforce と SentinelOne の両方が挙げられていることから、転職または複数組織にまたがる協働研究の可能性がある。詳細な経緯は未確認。
- 米国の提携研究ラボの具体名は口頭で明言されておらず、公式ページにも記載がないため特定できていない。