## 定義
データセンター信頼性は、部品、設備、運用、ソフトウェアによる障害を許容しつつサービスを継続する性質である。(Source: [[@2017__DSN__What Can We Learn from Four Years of Data Center Hardware Failures]])
## 横断的知見
- HDD 単体では温度変動の影響が小さい一方、データセンター全体では障害が時間・空間的に相関し、独立障害の仮定では不十分である。(Source: [[@2013__ACM TOS__Datacenter Scale Evaluation of the Impact of Temperature on Hard Disk Drive Failures]], [[@2017__DSN__What Can We Learn from Four Years of Data Center Hardware Failures]])
## 未解決の問い
- 相関障害の兆候を FOT と環境・ワークロードテレメトリからどこまで早期検知できるか。
- 修理保留による運用コスト削減と、将来の相関障害リスクをどう最適化するか。
## 関連
- [[@2017__DSN__What Can We Learn from Four Years of Data Center Hardware Failures]]
- [[@2013__ACM TOS__Datacenter Scale Evaluation of the Impact of Temperature on Hard Disk Drive Failures]]
## 出典
- [[@2017__DSN__What Can We Learn from Four Years of Data Center Hardware Failures]]
- [[@2013__ACM TOS__Datacenter Scale Evaluation of the Impact of Temperature on Hard Disk Drive Failures]]