レジリエンスエンジニアリング

# レジリエンスエンジニアリング (Resilience Engineering) ## 定義レジリエンスエンジニアリング（Resilience Engineering, RE）は、複雑社会技術システム（Complex Sociotechnical Systems）が不確実性・変動・混乱にどう適応し機能を維持するかを研究・設計する工学分野である。従来の安全工学が「何を排除するか（事故の防止）」に注目するのに対し、RE は「何がうまくいっているか（成功の条件）」を同等に重視する。Jens Rasmussen、David D. Woods、Sidney Dekker らが中核的研究者。 Tanner Lund は SREcon19 APAC で「Human Factors に触発されたアプローチ、特に Resilience Engineering の流儀で」ポストモーテムを再設計すると明記した([[@2019__SREcon19 Asia__A Tale of Two Postmortems - A Human Factors View]] p.27)。 ## 中核概念 - **創発的振る舞い(Emergent Behavior)**: 複雑システムの挙動はコンポーネントでなく相互作用から生まれる。個々の部品を調べても全体の障害モードは予測できない([[@2019__SREcon19 Asia__A Tale of Two Postmortems - A Human Factors View]] p.23)。 - **もつれた因果性(Tangled Causality)**: 障害の原因は線形でもツリー構造でもなく、複数の要因が絡み合う網状構造をとる(同 p.24)。 - **帰納の問題(Problem of Induction)**: 「まだ起きていない」ことが「永遠に起きない」を保証しない。修復後も潜在リスクは残る(同 p.25)。 - **次元性の呪い(Curse of Dimensionality)**: 変数が増えるほど網羅すべき状態空間は指数関数的に増大し、完全な防護は不可能(同 p.26)。 - **システム耐性(System Endurance)**: 不確実性・変動性・不完全な知識・偶然・混沌・時間・未知・ランダム性・エラー・分散する結果など16種のストレス要因にシステムがどれだけ耐えられるかが問われる(同 p.35)。 ## 主要参考文献(スライドより) - Richard I. Cook「How Complex Systems Fail」(Cognitive Technologies Laboratory, University of Chicago) - Jens Rasmussen「Risk Management in a Dynamic Society: A Modelling Problem」 - B. Cook & J. Rasmussen「'Going solid': a model of system dynamics and consequences for patient safety」 - Lisanne Bainbridge「Ironies of Automation」→ [[自動化の皮肉]] - David D. Woods「Four concepts for resilience and the implications for the future of resilience engineering」 - Jean Christophe Le Coze「Vive la diversité! HRO and RE」、「Reflecting on Jens Rasmussen's legacy」 - John Allspaw, Morgan Evans, Daniel Schauenberg「Debriefing Facilitation Guide」(Etsy) ## 横断的知見 - **RE は HRO (High Reliability Organisation) と密接に関連するが区別される**: Le Coze は HRO と RE を対比する論文を書いており、両者は類似した問いを立てながら方法論的に異なる([[@2019__SREcon19 Asia__A Tale of Two Postmortems - A Human Factors View]] p.37)。RE が「なぜ成功するか」を問うのに対し、HRO は「どのような組織特性が信頼性を生むか」を問う。 - **ソフトウェア SRE への RE 適用は実践段階にある**: Tanner Lund の発表は、航空・医療・原子力などの安全クリティカルドメインで育った RE の概念を SRE に適用する試みの一例。Cook の「How Complex Systems Fail」を始め、RE 文献が SRE コミュニティで広く引用されるようになった。 - **Safety I → Safety II は PIR 実践の次の進化を示す**: Partington は STELLA レポート（[[David D. Woods]] ほか）のフレームワークを引いて、PIR の目的を Safety I（問題が起きた場合だけ学ぶ「分布の左裾」注目）から Safety II（問題が起きた場合も起きなかった場合も学ぶ「分布全体」注目）へ移行させるべきと論じた（[[@2022__SREcon22APAC__A Post Incident Review Review]] p.49）。安全 II では「なぜうまくいったか」を問うことも障害学習と同等の価値を持つ。これは Hollnagel の Safety II 理論の直接応用であり、ANZx が「What went well?」を Lessons の5問に含める設計に表れている。 - **STELLA レポート / Woods' Theorem が「精度の低下」を複雑性の必然と位置づける**: Partington は Woods の定理「複雑性が増すほど、単一エージェントのモデルの精度は急速に低下する」を引用し（[[@2022__SREcon22APAC__A Post Incident Review Review]] p.29）、「誰もシステム全体を把握できない」という前提が複合的 PIR スタイルを正当化すると論じた。STELLA レポート（System-Theoretic Process Analysis）は航空・医療から来た分析手法であるが、この定理はソフトウェアシステムの分散チーム状況でも直接当てはまる。単一根本原因モデルが「モデル精度の低下」を無視していることへの批判と読める。 - **「カーディオを鍛えよ」——レジリエンスはインシデント後でなくインシデント前に構築する**: Ruppe は「二度と起こさない」のでなく「Work on your Cardio（カーディオを鍛えよ）」という比喩でレジリエンス構築を訴える([[@2022__SREcon22EMEA__The Repeat Incident Fallacy - What Jurassic Park Can Teach Us about Incidents]] p.19)。推奨する準備活動は: 過去インシデントのストーリーテリング / 誰に連絡すべきかの周知・心理的安全性の構築・チームビルディング・非難認識(blame awareness) / ゲームデイ・リージョン切替訓練・深刻度の単純化 / アラートが顧客影響にどう対応するかの理解。これは RE の中核思想「What went well を問う」・「系の適応能力を事前に育てる」の実践的具体化であり、Partington の Safety II（問題が起きなかったときも学ぶ）アプローチと同方向の知見である。 - **「進化する社会技術システム」としての SRE 実践環境**: Ruppe は SRE が扱うシステムを "evolving sociotechnical systems" と明示的に呼ぶ(p.6)。CI/CD による継続的変化が「同一システムへの同一インシデント再発」を不可能にするという主張は、RE が定義する「システムは静的でなく常に変化・適応する」という前提と直接対応する。Laura Maguire の命題「CI/CD = 継続的変化 = 同じ川に二度と入れない」(p.5)は、RE の Rasmussen 流の「移住するリスク境界」概念をソフトウェア文脈で直感的に再解釈したものと読める。(Source: [[@2022__SREcon22EMEA__The Repeat Incident Fallacy - What Jurassic Park Can Teach Us about Incidents]]) - **即興能力（Improvisation）== 適応的キャパシティ（Adaptive Capacity）という等式**: Davis は [[@2023__SREcon23Americas__Human Observability of Incident Response]]（p.22）において「即興演奏 == 適応的キャパシティ」と明示した。複雑な文脈（インシデント）は計画不能であり即興が必要、即興はすなわち RE が重視する Adaptive Capacity そのものである、という論旨。これは Ruppe の「カーディオ」比喩・Partington の Safety II 実践と三者独立に「事前の適応能力醸成」を指向しており、RE の実践論として収束している。Ensieh Roud（Safety Science 2021）の「集合的即興は社会的・共同的に生じる」「即興の訓練がなければ複雑な文脈に対処できない」という知見もこれを支持する。(Source: [[@2023__SREcon23Americas__Human Observability of Incident Response]]) - **Todd（SREcon23 Americas）が引用する Adaptive Capacity の原著定義は、Davis の「即興==Adaptive Capacity」論を補強する**: Todd は Woods（2019; p.53）を引用し、「Adaptive Capacity とは、将来起こりうる出来事・機会・混乱の種類の変化に対応できるよう活動パターンを調整する潜在能力であり、変化や混乱が生じる以前から存在する」と定義する([[@2023__SREcon23Americas__Handover Communications in Software Operations - Findings from the Field]] p.16)。この「事前に存在する潜在能力」という定義は、Davis の「即興の訓練(Practice of Practice)がなければ複雑な文脈に対処できない」という主張——すなわち Adaptive Capacity はインシデント発生後でなく事前の訓練で育てるものだという含意——と直接整合する。Todd の研究は引き継ぎ(Handover)という別の局面でも Adaptive Capacity を分析枠組みの中核概念として採用しており、Adaptive Capacity がインシデント対応固有でなくソフトウェア運用の人的要因全般に適用される概念であることを示す。(Source: [[@2023__SREcon23Americas__Handover Communications in Software Operations - Findings from the Field]]) ## 未解決の問い - RE の「成功の条件を調べる」アプローチ(Work-as-Imagined vs. Work-as-Done)を SRE のポストモーテムに体系的に導入した事例の定量的評価はあるか。 - 個別インタビュー→デブリーフィングという RE 由来の手法は、大規模組織・多チーム・国際分散チームにスケールするか。 - AI エージェントが SRE 作業を担うようになる中で、RE の「人間の適応的専門性を評価・活用する」というアプローチはどう変容するか。 ## 関連 - [[人的要因]] — 密接に関連する姉妹領域 - [[ポストモーテム]] — RE の視点を導入した批判的実践 - [[自動化の皮肉]] — Bainbridge: 自動化拡大が人間の状況認識を低下させる逆説 - [[データセンター信頼性]] — 信頼性エンジニアリングの現代的文脈 - [[Handover Communications]] — Adaptive Capacity を分析枠組みの中核概念として採用する引き継ぎ伝達研究 - [[David D. Woods]] — Adaptive Capacity 定義(2019)・STELLA レポートの中心人物 ## 出典 - [[@2019__SREcon19 Asia__A Tale of Two Postmortems - A Human Factors View]] - [[@2022__SREcon22APAC__A Post Incident Review Review]] (p.29: STELLA/Woods' Theorem; p.49: Safety I→II) - [[@2023__SREcon23Americas__Handover Communications in Software Operations - Findings from the Field]](p.16: Adaptive Capacity の定義、Woods, 2019; p.53 への帰属)