## 定義
分散システム障害は、設定、部分的な機能停止、あるいは非決定的な分散イベント順序によって、期待する局所または大域の振る舞いが失われる事象である。(Source: [[@2011__SOSP__An Empirical Study on Configuration Errors in Commercial and Open Source Systems]], [[@2016__ASPLOS__TaxDC - A Taxonomy of Non-Deterministic Concurrency Bugs in Datacenter Distributed Systems]])
## 横断的知見
- 外部設定、障害下のイベント順序、部分障害はいずれも通常の外形的ヘルスチェックから漏れうる。検出器は対象プログラムの文脈・状態・相互作用に踏み込む必要がある。(Source: [[@2011__SOSP__An Empirical Study on Configuration Errors in Commercial and Open Source Systems]], [[@2020__NSDI__Understanding, Detecting and Localizing Partial Failures in Large System Software]], [[@2016__ASPLOS__TaxDC - A Taxonomy of Non-Deterministic Concurrency Bugs in Datacenter Distributed Systems]])
## 未解決の問い
- 設定整合性、不適時メッセージ、部分障害を統一して扱う本番検証器を構成できるか。
## 関連
- [[@2011__SOSP__An Empirical Study on Configuration Errors in Commercial and Open Source Systems]]
- [[@2020__NSDI__Understanding, Detecting and Localizing Partial Failures in Large System Software]]
- [[@2016__ASPLOS__TaxDC - A Taxonomy of Non-Deterministic Concurrency Bugs in Datacenter Distributed Systems]]
## 出典
- [[@2011__SOSP__An Empirical Study on Configuration Errors in Commercial and Open Source Systems]]
- [[@2020__NSDI__Understanding, Detecting and Localizing Partial Failures in Large System Software]]
- [[@2016__ASPLOS__TaxDC - A Taxonomy of Non-Deterministic Concurrency Bugs in Datacenter Distributed Systems]]