## 定義 データセンターネットワーク信頼性は、機器・光回線・経路・制御機構の障害下でも、サービスに必要なネットワーク可用性と品質を維持する性質である。(Source: [[@2018__IMC__A Large Scale Study of Data Center Network Reliability]]) ## 横断的知見 - ネットワークは公開停止事例で主要原因となる一方、実運用では多くの部品障害が冗長性で隠蔽される。したがって評価単位は部品故障数ではなくサービス影響を持つ事象である。(Source: [[@2016__SoCC__Why Does the Cloud Stop Computing - Lessons from Hundreds of Service Outages]], [[@2018__IMC__A Large Scale Study of Data Center Network Reliability]]) ## 未解決の問い - ネットワーク設計変更による障害率・復旧時間の変化を、アプリケーションの可用性 SLO にどう翻訳するか。 ## 関連 - [[@2018__IMC__A Large Scale Study of Data Center Network Reliability]] ## 出典 - [[@2018__IMC__A Large Scale Study of Data Center Network Reliability]] - [[@2016__SoCC__Why Does the Cloud Stop Computing - Lessons from Hundreds of Service Outages]]