## Memo ## Abstract 長年にわたり、キャパシティプランニングの専門家は、コンピュータの使用状況のさまざまな特性が非正規分布であることを知っているか、疑っていました。同時に、従来のワークロードのモデリングと予測の多くは、基礎となる分布のある種の正規性を仮定した数学的手法に基づいている。もし、現存する分布と想定される分布の間に不一致がある場合、結果として得られる能力モデルは、予想が外れる可能性があり、信頼区間が予想よりはるかに広くなるなど、質が低下する。この論文では、3つのストレージクラスタにおける1日のリソース使用量の分布を478日間にわたって分析しました。各日について、使用されたストレージ、実行されたストレージトランザクション、内部ネットワーク転送、出口転送、データセンター間転送の5つの異なるリソースについて、顧客アカウントによるリソース使用量の分布を検討しました。すべての分布は非常に不均衡で、ほとんどの分布サンプルは、対数正規分布、指数分布、正規分布よりも重いテールを持つ。これらの結果は、正規性を仮定したモデルのほとんどに重大な問題をもたらすものでした。数学的には[[中心極限定理]]はべき乗分布には適用されないため、従来のアプローチによるモデリングでは、「平均化」効果を期待することはできない。運用面では、ボラティリティが非常に高いということは、「キャパシティのバッファ」を大きくする必要があり、キャパシティの浪費につながる。それを減らすために、他の管理的な手段を適用する必要がある。全体として、クラウドストレージのリソース使用量の分布は、通常の変換を行った後でも、通常とは大きく異なっており、予測や容量計画に対する従来のアプローチは再考する必要がある。リソース使用量を表す時系列の対数リターンの分布は、株価指数の同様の分布よりもはるかにヘビーテールである。金融のプロが株式市場の分析や予測に線形回帰を使うことはないでしょうから、キャパシティ・プランニングもヘビーテールの分布を考慮したツールを採用する方向に向かうべきでしょう。