## 定義 分散システム障害は、設定、部分的な機能停止、あるいは非決定的な分散イベント順序によって、期待する局所または大域の振る舞いが失われる事象である。(Source: [[@2011__SOSP__An Empirical Study on Configuration Errors in Commercial and Open Source Systems]], [[@2016__ASPLOS__TaxDC - A Taxonomy of Non-Deterministic Concurrency Bugs in Datacenter Distributed Systems]]) ## 横断的知見 - 外部設定、障害下のイベント順序、部分障害はいずれも通常の外形的ヘルスチェックから漏れうる。検出器は対象プログラムの文脈・状態・相互作用に踏み込む必要がある。(Source: [[@2011__SOSP__An Empirical Study on Configuration Errors in Commercial and Open Source Systems]], [[@2020__NSDI__Understanding, Detecting and Localizing Partial Failures in Large System Software]], [[@2016__ASPLOS__TaxDC - A Taxonomy of Non-Deterministic Concurrency Bugs in Datacenter Distributed Systems]]) ## 未解決の問い - 設定整合性、不適時メッセージ、部分障害を統一して扱う本番検証器を構成できるか。 ## 関連 - [[@2011__SOSP__An Empirical Study on Configuration Errors in Commercial and Open Source Systems]] - [[@2020__NSDI__Understanding, Detecting and Localizing Partial Failures in Large System Software]] - [[@2016__ASPLOS__TaxDC - A Taxonomy of Non-Deterministic Concurrency Bugs in Datacenter Distributed Systems]] ## 出典 - [[@2011__SOSP__An Empirical Study on Configuration Errors in Commercial and Open Source Systems]] - [[@2020__NSDI__Understanding, Detecting and Localizing Partial Failures in Large System Software]] - [[@2016__ASPLOS__TaxDC - A Taxonomy of Non-Deterministic Concurrency Bugs in Datacenter Distributed Systems]]