# A Large Scale Study of Data Center Network Reliability **論文**: A Large Scale Study of Data Center Network Reliability **媒体**: IMC 2018 **対象**: Facebook のデータセンターネットワークと WAN 運用データ **URL**: https://people.inf.ethz.ch/omutlu/pub/data-center-network-errors-at-facebook_imc18.pdf > [!abstract] 概要 > 本論文は、Facebook の大規模ネットワーク運用データを用いて、データセンター内ネットワークと WAN の信頼性を分析する。分析対象は単なるリンクや機器の故障件数ではなく、サービスに影響を与えるネットワーク事象である。結果として、ネットワーク障害の多くはハードウェア単体ではなく、メンテナンス、設定ミス、ソフトウェアバグ、人的事故といった運用要因と結びついていることが示される。 ## 論文情報 | 項目 | 内容 | |---|---| | 著者 | Justin Meza, Tianyin Xu, Kaushik Veeraraghavan, Onur Mutlu | | 発表 | IMC 2018 | | 対象 | Facebook のデータセンター内ネットワークと WAN | | 規模 | データセンター内は 7 年、WAN は 18 か月の修理・障害記録 | | 主題 | ネットワーク信頼性、根本原因、MTBF/MTTR、運用要因 | ## 概要 データセンターのネットワーク信頼性は、単純な機器故障率だけでは説明できない。 本論文は、サービスに影響するネットワーク事象を中心に、原因、範囲、復旧時間、地域差を分析する。 特に重要なのは、ネットワーク障害を「リンクが落ちた」「スイッチが壊れた」という物理事象だけでなく、運用イベントとして見ている点である。 メンテナンス、設定変更、ソフトウェア更新、人為的操作、容量不足が、最終的にネットワーク信頼性を左右する。 ## 問題設定 データセンターネットワークは、冗長化、複数パス、迅速なルーティング切替によって高可用性を実現する。 しかし、現実の障害は冗長経路だけで吸収できない。 運用変更が複数機器に波及し、設定ミスが広範囲に展開され、バグがトラフィック制御を壊すことがある。 この論文の問いは次の通りである。 - 大規模ネットワークにおいて、サービス影響を持つ障害の根本原因は何か。 - ハードウェア故障と人的・ソフトウェア的要因の比率はどう違うか。 - データセンター内ネットワークと WAN で信頼性特性はどう異なるか。 - MTBF と MTTR は、実運用上どの程度の値を取るか。 ## データセット 論文は Facebook の実運用データを用いる。 データセンター内ネットワークについては 7 年間、WAN については 18 か月間の修理チケットや障害記録が対象である。 分析対象は、ネットワーク部品のすべての小さな異常ではなく、サービスに影響するネットワーク事象である。 この設計により、サービス可用性の観点から重要な障害を中心に扱っている。 **Figure 1: Facebook のネットワークアーキテクチャ** ![[_attachments/imc2018-facebook-network-errors/fig01-network-architecture.png]] (Figure 1. クラスタネットワーク、ファブリックネットワーク、WAN バックボーンを含む Facebook のデータセンターネットワーク構成を示す。) ## 分析軸 論文は根本原因を次のように分類する。 | 根本原因 | 割合 | |---|---:| | Maintenance | 17% | | Hardware | 13% | | Misconfiguration | 13% | | Bug | 12% | | Accidents | 11% | | Capacity | 5% | | Undetermined | 29% | この分布は、ハードウェア故障だけが支配的ではないことを示す。 メンテナンス、設定ミス、バグ、人為的事故を合わせると、運用・ソフトウェア要因の重みが大きい。 **Table 2: データセンター内ネットワークインシデントの根本原因** ![[_attachments/imc2018-facebook-network-errors/table02-root-causes.png]] (Table 2. メンテナンス、ハードウェア、設定ミス、バグ、事故、容量、不明に分類した根本原因の比率を示す。) ## 主な結果 ### サービス影響のある障害は運用要因が大きい ソフトウェアに影響するネットワーク障害は、メンテナンス、ハードウェア、設定ミスを主要因として含む。 特に、人為的な操作や設定変更に起因する障害は、機器の自然故障よりも多く観測される。 この結果は、ネットワーク信頼性を改善するには、機器冗長化だけでなく、変更管理、設定検証、段階的ロールアウトが必要であることを示す。 ### ハードウェア故障は重要だが単独ではない Hardware は 13% と大きなカテゴリだが、全体の唯一の支配要因ではない。 冗長構成により単一機器故障は吸収されることが多い一方、運用変更や設定ミスは冗長化された経路全体に同時に影響し得る。 ### MTBF/MTTR は階層や地域で異なる 論文は edge node や vendor 単位で MTBF/MTTR を評価する。 edge node の MTBF は中央値 1710 時間、90 パーセンタイル 3521 時間とされる。 vendor 単位では中央値 2326 時間、90 パーセンタイル 5709 時間が報告される。 MTTR は中央値 13 時間、90 パーセンタイル 60 時間である。 **Figure 9: デバイス種別ごとの MTBI** ![[_attachments/imc2018-facebook-network-errors/fig09-mtbi-device-types.png]] (Figure 9. デバイス種別ごとのインシデント間隔を示す。デバイス種別と世代によって信頼性特性が異なる。) **Figure 10: デバイス種別ごとの p75 解決時間** ![[_attachments/imc2018-facebook-network-errors/fig10-resolution-time-device-types.png]] (Figure 10. デバイス種別ごとの 75 パーセンタイル解決時間を示す。復旧時間はデバイス種別で大きく変わる。) これらの値は、ネットワーク障害が即時復旧するとは限らないことを示す。 一方で、edge では大陸をまたいでも 1 日以内に回復する傾向が報告される。 ### 不明原因が多い Undetermined は 29% と大きい。 これは、大規模ネットワーク障害の根本原因分析が難しいことを示す。 ログ、チケット、メトリクスが存在しても、複数の変更や障害が重なった場合、明確な単一原因に帰着できない。 ## 新規性 この論文の貢献は、Facebook の大規模実運用ネットワークを対象に、サービス影響を持つ障害を分析した点である。 機器故障率ではなく、実際にサービスへ影響したネットワーク事象を扱うため、クラウド・SNS・大規模 Web サービスの可用性議論に近い。 ## 考察 冗長なネットワーク設計は必要条件だが十分条件ではない。 設定変更やメンテナンスは、同時に多数の経路や装置へ影響し得る。 そのため、ネットワーク信頼性の本質は、トポロジ設計と運用プロセスの組み合わせにある。 この論文は、[[データセンターネットワーク信頼性]] を考える際に、次の設計論点を与える。 - 設定変更を事前検証し、段階的に展開する。 - メンテナンス作業が冗長性を一時的に壊さないようにする。 - ハードウェア交換とルーティング制御を統合して監視する。 - 根本原因が不明のまま残る事象を前提に、復旧手順と観測性を設計する。 ## 強み / 弱点・課題 ### 強み - Facebook の長期・大規模な実運用データに基づく。 - ネットワーク部品ではなく、サービス影響事象を分析単位にしている。 - ハードウェア、運用、設定、ソフトウェアバグを同じ枠組みで比較している。 - MTBF/MTTR を含め、運用上使いやすい指標を提示している。 ### 弱点・課題 - 単一企業のネットワーク設計・運用文化に依存する。 - Undetermined が大きく、根本原因分類には不確実性がある。 - 論文の時期以降の SDN、自動検証、クラウドネットワークの変化は別途考慮が必要である。 - サービス影響事象に絞るため、微小な物理故障の全体分布は主題ではない。 ## 関連 - [[データセンターネットワーク信頼性]] - [[データセンター信頼性]] - [[@2017__DSN__What Can We Learn from Four Years of Data Center Hardware Failures]] - [[@2016__SoCC__Why Does the Cloud Stop Computing - Lessons from Hundreds of Service Outages]] ## 出典 - [[.raw/papers/imc2018-facebook-network-errors.pdf]] - [[.raw/papers/imc2018-facebook-network-errors.txt]] - [[.raw/papers/imc2018-facebook-network-errors/images/images.json]]