## Memo > これらの交換/障害のうち、大多数(78%)がハードディスク用で、次いで数名(5 %)がレイドコントローラ用、さらにメモリ用(3%)が使用されています。しかし、 全置換の13%は、単一のコンポーネントが支配的でない他のすべてのコンポー ネントのコレクションから得られています。このように、ハードディスクの信 頼性を向上させることで、失敗回数を大幅に削減することができます3 ## Abstract 現代のデータセンターは、可用性の高いクラウド・コンピューティング・サービスを提供するために、タスクを調整する何十万台ものサーバーをホストしている。これらのサーバーは、複数のハードディスク、メモリー・モジュール、ネットワーク・カード、プロセッサーなどで構成されており、それぞれ慎重に設計されているものの、故障する可能性がある。サーバーの寿命(通常、業界では3~5年)中にそのような故障が発生する確率はやや低いかもしれませんが、この数字はデータセンターでホストされているすべてのデバイスで大きくなります。このような大規模では、ハードウェア・コンポーネントの故障は例外ではなく、むしろ普通です。 ハードウェアの故障は、エンドユーザーへのパフォーマンスの低下を招き、ビジネスに損失をもたらす可能性がある。このような故障の背後にある原因だけでなく、数を正しく理解することで、故障に耐えられるようになるだけでなく、エンジニアリングによってハードウェアのコストを下げることができ、会社の節約に直結するため、運用経験を向上させることができます。我々の知る限り、本稿は大規模データセンターにおけるサーバーの故障とハードウェアの修理について研究した最初の試みである。我々は、故障特性の詳細な分析と故障予測因子に関する予備的な分析を提示する。本稿で紹介する結果が、この分野のさらなる研究を促進する動機付けとなることを願っている。