## 定義 データセンター信頼性は、部品、設備、運用、ソフトウェアによる障害を許容しつつサービスを継続する性質である。(Source: [[@2017__DSN__What Can We Learn from Four Years of Data Center Hardware Failures]]) ## 横断的知見 - HDD 単体では温度変動の影響が小さい一方、データセンター全体では障害が時間・空間的に相関し、独立障害の仮定では不十分である。(Source: [[@2013__ACM TOS__Datacenter Scale Evaluation of the Impact of Temperature on Hard Disk Drive Failures]], [[@2017__DSN__What Can We Learn from Four Years of Data Center Hardware Failures]]) ## 未解決の問い - 相関障害の兆候を FOT と環境・ワークロードテレメトリからどこまで早期検知できるか。 - 修理保留による運用コスト削減と、将来の相関障害リスクをどう最適化するか。 ## 関連 - [[@2017__DSN__What Can We Learn from Four Years of Data Center Hardware Failures]] - [[@2013__ACM TOS__Datacenter Scale Evaluation of the Impact of Temperature on Hard Disk Drive Failures]] ## 出典 - [[@2017__DSN__What Can We Learn from Four Years of Data Center Hardware Failures]] - [[@2013__ACM TOS__Datacenter Scale Evaluation of the Impact of Temperature on Hard Disk Drive Failures]]