# A Large Scale Study of Data Center Network Reliability
**論文**: A Large Scale Study of Data Center Network Reliability
**媒体**: IMC 2018
**対象**: Facebook のデータセンターネットワークと WAN 運用データ
**URL**: https://people.inf.ethz.ch/omutlu/pub/data-center-network-errors-at-facebook_imc18.pdf
> [!abstract] 概要
> 本論文は、Facebook の大規模ネットワーク運用データを用いて、データセンター内ネットワークと WAN の信頼性を分析する。分析対象は単なるリンクや機器の故障件数ではなく、サービスに影響を与えるネットワーク事象である。結果として、ネットワーク障害の多くはハードウェア単体ではなく、メンテナンス、設定ミス、ソフトウェアバグ、人的事故といった運用要因と結びついていることが示される。
## 論文情報
| 項目 | 内容 |
|---|---|
| 著者 | Justin Meza, Tianyin Xu, Kaushik Veeraraghavan, Onur Mutlu |
| 発表 | IMC 2018 |
| 対象 | Facebook のデータセンター内ネットワークと WAN |
| 規模 | データセンター内は 7 年、WAN は 18 か月の修理・障害記録 |
| 主題 | ネットワーク信頼性、根本原因、MTBF/MTTR、運用要因 |
## 概要
データセンターのネットワーク信頼性は、単純な機器故障率だけでは説明できない。
本論文は、サービスに影響するネットワーク事象を中心に、原因、範囲、復旧時間、地域差を分析する。
特に重要なのは、ネットワーク障害を「リンクが落ちた」「スイッチが壊れた」という物理事象だけでなく、運用イベントとして見ている点である。
メンテナンス、設定変更、ソフトウェア更新、人為的操作、容量不足が、最終的にネットワーク信頼性を左右する。
## 問題設定
データセンターネットワークは、冗長化、複数パス、迅速なルーティング切替によって高可用性を実現する。
しかし、現実の障害は冗長経路だけで吸収できない。
運用変更が複数機器に波及し、設定ミスが広範囲に展開され、バグがトラフィック制御を壊すことがある。
この論文の問いは次の通りである。
- 大規模ネットワークにおいて、サービス影響を持つ障害の根本原因は何か。
- ハードウェア故障と人的・ソフトウェア的要因の比率はどう違うか。
- データセンター内ネットワークと WAN で信頼性特性はどう異なるか。
- MTBF と MTTR は、実運用上どの程度の値を取るか。
## データセット
論文は Facebook の実運用データを用いる。
データセンター内ネットワークについては 7 年間、WAN については 18 か月間の修理チケットや障害記録が対象である。
分析対象は、ネットワーク部品のすべての小さな異常ではなく、サービスに影響するネットワーク事象である。
この設計により、サービス可用性の観点から重要な障害を中心に扱っている。
**Figure 1: Facebook のネットワークアーキテクチャ**
![[_attachments/imc2018-facebook-network-errors/fig01-network-architecture.png]]
(Figure 1. クラスタネットワーク、ファブリックネットワーク、WAN バックボーンを含む Facebook のデータセンターネットワーク構成を示す。)
## 分析軸
論文は根本原因を次のように分類する。
| 根本原因 | 割合 |
|---|---:|
| Maintenance | 17% |
| Hardware | 13% |
| Misconfiguration | 13% |
| Bug | 12% |
| Accidents | 11% |
| Capacity | 5% |
| Undetermined | 29% |
この分布は、ハードウェア故障だけが支配的ではないことを示す。
メンテナンス、設定ミス、バグ、人為的事故を合わせると、運用・ソフトウェア要因の重みが大きい。
**Table 2: データセンター内ネットワークインシデントの根本原因**
![[_attachments/imc2018-facebook-network-errors/table02-root-causes.png]]
(Table 2. メンテナンス、ハードウェア、設定ミス、バグ、事故、容量、不明に分類した根本原因の比率を示す。)
## 主な結果
### サービス影響のある障害は運用要因が大きい
ソフトウェアに影響するネットワーク障害は、メンテナンス、ハードウェア、設定ミスを主要因として含む。
特に、人為的な操作や設定変更に起因する障害は、機器の自然故障よりも多く観測される。
この結果は、ネットワーク信頼性を改善するには、機器冗長化だけでなく、変更管理、設定検証、段階的ロールアウトが必要であることを示す。
### ハードウェア故障は重要だが単独ではない
Hardware は 13% と大きなカテゴリだが、全体の唯一の支配要因ではない。
冗長構成により単一機器故障は吸収されることが多い一方、運用変更や設定ミスは冗長化された経路全体に同時に影響し得る。
### MTBF/MTTR は階層や地域で異なる
論文は edge node や vendor 単位で MTBF/MTTR を評価する。
edge node の MTBF は中央値 1710 時間、90 パーセンタイル 3521 時間とされる。
vendor 単位では中央値 2326 時間、90 パーセンタイル 5709 時間が報告される。
MTTR は中央値 13 時間、90 パーセンタイル 60 時間である。
**Figure 9: デバイス種別ごとの MTBI**
![[_attachments/imc2018-facebook-network-errors/fig09-mtbi-device-types.png]]
(Figure 9. デバイス種別ごとのインシデント間隔を示す。デバイス種別と世代によって信頼性特性が異なる。)
**Figure 10: デバイス種別ごとの p75 解決時間**
![[_attachments/imc2018-facebook-network-errors/fig10-resolution-time-device-types.png]]
(Figure 10. デバイス種別ごとの 75 パーセンタイル解決時間を示す。復旧時間はデバイス種別で大きく変わる。)
これらの値は、ネットワーク障害が即時復旧するとは限らないことを示す。
一方で、edge では大陸をまたいでも 1 日以内に回復する傾向が報告される。
### 不明原因が多い
Undetermined は 29% と大きい。
これは、大規模ネットワーク障害の根本原因分析が難しいことを示す。
ログ、チケット、メトリクスが存在しても、複数の変更や障害が重なった場合、明確な単一原因に帰着できない。
## 新規性
この論文の貢献は、Facebook の大規模実運用ネットワークを対象に、サービス影響を持つ障害を分析した点である。
機器故障率ではなく、実際にサービスへ影響したネットワーク事象を扱うため、クラウド・SNS・大規模 Web サービスの可用性議論に近い。
## 考察
冗長なネットワーク設計は必要条件だが十分条件ではない。
設定変更やメンテナンスは、同時に多数の経路や装置へ影響し得る。
そのため、ネットワーク信頼性の本質は、トポロジ設計と運用プロセスの組み合わせにある。
この論文は、[[データセンターネットワーク信頼性]] を考える際に、次の設計論点を与える。
- 設定変更を事前検証し、段階的に展開する。
- メンテナンス作業が冗長性を一時的に壊さないようにする。
- ハードウェア交換とルーティング制御を統合して監視する。
- 根本原因が不明のまま残る事象を前提に、復旧手順と観測性を設計する。
## 強み / 弱点・課題
### 強み
- Facebook の長期・大規模な実運用データに基づく。
- ネットワーク部品ではなく、サービス影響事象を分析単位にしている。
- ハードウェア、運用、設定、ソフトウェアバグを同じ枠組みで比較している。
- MTBF/MTTR を含め、運用上使いやすい指標を提示している。
### 弱点・課題
- 単一企業のネットワーク設計・運用文化に依存する。
- Undetermined が大きく、根本原因分類には不確実性がある。
- 論文の時期以降の SDN、自動検証、クラウドネットワークの変化は別途考慮が必要である。
- サービス影響事象に絞るため、微小な物理故障の全体分布は主題ではない。
## 関連
- [[データセンターネットワーク信頼性]]
- [[データセンター信頼性]]
- [[@2017__DSN__What Can We Learn from Four Years of Data Center Hardware Failures]]
- [[@2016__SoCC__Why Does the Cloud Stop Computing - Lessons from Hundreds of Service Outages]]
## 出典
- [[.raw/papers/imc2018-facebook-network-errors.pdf]]
- [[.raw/papers/imc2018-facebook-network-errors.txt]]
- [[.raw/papers/imc2018-facebook-network-errors/images/images.json]]