@1998__CtL__How Complex Systems Fail - yuuk1's Digital Garden

# How Complex Systems Fail ソース: https://how.complexsystems.fail/ | 著者: [[Richard I. Cook]] (MD, Cognitive Technologies Laboratory, University of Chicago) | 初版: © 1998 R.I.Cook, for CtL ## 概要複雑システムにおける障害の本質を 18 の命題で体系化した古典的論考。医療安全の文脈で書かれたが、ソフトウェア・インフラ・輸送・発電等のあらゆる複雑システムに適用される。SRE・安全工学・ヒューマンファクタ分野で広く引用される一次資料。 [[複雑システム障害論]] の正典テキスト。 ## 18 の命題 ### 構造と防御（命題 1〜6） **1. 複雑システムは本質的に危険なシステムである** — 複雑システム（輸送・医療・発電等）は本質的・不可避的に危険を内包する。この危険の存在が多層防御の構築を促す。 **2. 複雑システムは多層防御によって障害に強く抗する** — 技術的・人的・組織的・制度的防御が重層し、通常時には事故を回避させる。 **3. 破滅には複数の障害が必要—単一障害では不十分** — 各小障害は必要条件だが組み合わせが十分条件。多数の障害機会が存在するが、ほとんどは防御系に阻まれる。→ [[潜在的障害]] **4. 複雑システムは変化する潜在的障害の混合を内包する** — 経済的コストと事前可視性の限界から根絶不可能。技術・組織変化により絶えず変動する。→ [[潜在的障害]] **5. 複雑システムは劣化モードで稼働する** — 多くの冗長性と人間の工夫によって障害を抱えたまま機能し続ける。proto-accident の歴史は常に存在する。→ [[潜在的障害]] [[Metastable Failure]] **6. 破滅は常に目の前にある** — 完全な壊滅的障害ポテンシャルの排除は不可能。 ### 事故分析の認識論（命題 7〜8） **7. 事故後に「根本原因」を帰属させることは根本的に誤りである** — 単一の原因は存在しない。「根本原因」分析は技術的理解ではなく、社会的・文化的な責任帰属の必要性を反映する。→ [[根本原因分析]] [[ヒンドサイトバイアス]] **8. ヒンドサイトバイアスが事後の人間パフォーマンス評価を歪める** — 結果知識が、事前の実践者の視点の再現を不可能にする。ヒンドサイトバイアスは事故調査の主要障害。→ [[ヒンドサイトバイアス]] ### 人間の役割（命題 9〜13） **9. 人間オペレーターは生産者と障害防御者の二重の役割を持つ** — 外部者はどちらか一方を強調するが、実践者は常に両者を同時に担う。 **10. 実践者のすべての行動は賭けである** — 不確実な結果に直面した行為。成功も失敗も賭けの結果であり、事後的に「明らかな失敗」に見えるのはヒンドサイトバイアスの産物。 **11. Sharp end での行動がすべての曖昧さを解消する** — 組織の意図的な曖昧さは最前線の実践者（Sharp end）の行動によって実質的に決定される。生産圧力が事後的には「違反」と評価される行動を引き起こす。 **12. 人間の実践者は複雑システムの適応的要素である** — 実践者はシステムを瞬時に適応させ、生産最大化と事故最小化のバランスを取る。4 つの適応形態：(1) 脆弱部の再構成、(2) 高需要域へのリソース集中、(3) 回復経路の確保、(4) 早期性能劣化検知。→ [[自動化の皮肉]] **13. 複雑システムにおける人間の専門知識は絶えず変化する** — 技術変化と専門家の交代により、あらゆる複雑システムは異なる専門レベルの実践者を含む。希少な専門知識のリソース配分と次世代育成が恒常的課題。 ### 変化・対策・安全性（命題 14〜18） **14. 変化は新たな障害形態をもたらす** — 既知の低影響高頻度障害を除去しようとする変化が、新たな低頻度高影響障害を生む。新形態の障害は事前可視性が低い。 **15. 「人的エラー」への事後的対策は通常、システムの結合と複雑性を高める** — 終端対策は同一事故の再発を防がず（潜在的障害パターンが常に変化するため）、新たな潜在的障害を増やす。 **16. 安全性はシステムの特性であり、コンポーネントの特性ではない** — 安全性は創発的特性。特定の人・デバイス・部門に宿るのではなく、動的に創出される。 **17. 人々は継続的に安全性を創り出す** — 無障害の運用は、システムを許容可能なパフォーマンス境界内に保つ人々の活動の結果。この瞬時の適応が安全性を生み出す。 **18. 無障害の運用には障害との経験が必要** — 「包絡線の縁（edge of the envelope）」—— 性能が劣化し始める境界——を識別するには、ハザードへの親密な接触が必要。ハザードへの調整済み視界と行動フィードバックが安全性向上の前提。 ## 横断的知見 - 命題 7（根本原因の否定）は、AIOps 分野で広く使われる「根本原因分析（RCA）」という用語そのものへの根本的な挑戦。Cook は RCA を「技術的でなく社会的行為」と位置づける（Source: [[@1998__CtL__How Complex Systems Fail]]）。 - 命題 5（劣化モードで稼働）は [[Metastable Failure]] の常態化した意味で先取りしている。メタステーブル障害は「劣化モードで動いているシステムが閾値を超えた瞬間」と読める。 - 命題 12・17（人間の適応的役割）は [[自動化の皮肉]]（Bainbridge 1983）と相補的——自動化が進むほど人間の適応能力が重要になるが、使われないことで能力が低下するというパラドクス。 ## 出典 - [[@1998__CtL__How Complex Systems Fail]]（Cook 1998, CtL） - 参照先一次資料: Woods & Cook 1999, Cook & Woods 1994