## 定義 クラウドインシデントは、期待されるサービス運用を損なう本番時の障害事象であり、停止、性能劣化、利用者影響を含む。(Source: [[@2019__HotOS__What Bugs Cause Production Cloud Incidents]]) ## 横断的知見 - 冗長化は必要条件にすぎず、検知、フェイルオーバー、バックアップの復旧連鎖と、本番条件で露出するソフトウェアバグの双方を検証する必要がある。(Source: [[@2016__SoCC__Why Does the Cloud Stop Computing - Lessons from Hundreds of Service Outages]], [[@2019__HotOS__What Bugs Cause Production Cloud Incidents]]) ## 未解決の問い - 公開ポストモーテムと内部インシデント記録の分類をどう接続し、一般化可能な予防策に変換するか。 ## 関連 - [[@2016__SoCC__Why Does the Cloud Stop Computing - Lessons from Hundreds of Service Outages]] - [[@2019__HotOS__What Bugs Cause Production Cloud Incidents]] ## 出典 - [[@2016__SoCC__Why Does the Cloud Stop Computing - Lessons from Hundreds of Service Outages]] - [[@2019__HotOS__What Bugs Cause Production Cloud Incidents]]