VPCネットワーク可用性 - yuuk1's Digital Garden

# VPCネットワーク可用性 ## 定義 VPC ネットワーク可用性(VPC Network Availability)とは、クラウドサービスプロバイダが顧客に提供する仮想プライベートクラウド(VPC)における、物理ネットワーク障害発生時の接続維持能力である。クラウドデータセンターでは VXLAN 等のトンネリングプロトコルで VM 間通信をオーバーレイしており、アンダーレイ(物理ネットワーク)の障害をオーバーレイで透過的に吸収する仕組みが可用性を左右する。障害検知・迂回・回復の 3 フェーズをサブ秒でこなすことが、Redis(200 ms RTO)・CFS(サブミリ秒レイテンシ)等のレイテンシ敏感サービスの SLA 維持に不可欠。(Source: [[@2026__NSDI__Harp - Improving VPC Network Availability via Efficient Failure Detection and Rerouting in Tencent Cloud]]) ## 障害パターン物理ネットワーク障害は 5 種類に分類される([[@2026__NSDI__Harp - Improving VPC Network Availability via Efficient Failure Detection and Rerouting in Tencent Cloud]] Figure 3): - リーフスイッチ障害: 23% - スパインスイッチ障害: 29% - コアスイッチ障害: 31% - DCI スイッチ障害: 11% - 設定エラー: 6% スイッチ障害は光モジュール破損・ボード故障・インタフェースダウン・計画外リブート・リンクフラッピング・サイレントパケットドロップ・ファームウェアバグ等が原因。設定エラーは ACL ルール誤りやルーティングミスのブラックホールが主。 ## 障害回復アプローチの比較 | アプローチ | 代表手法 | 回復時間 | 制約 | |---|---|---|---| | 物理ネットワーク診断 | Pingmesh・NetNORAD・NetPilot | 数十秒〜分 | 箇所特定が必要。グレイ障害を見逃す | | マルチパス(トランスポート層) | MPTCP・PRR・SRD | 数十〜数百 ms | ハードウェア依存 or VM スタック改修が必要 | | オーバーレイパス制御 | Harp・ZooRoute | < 1 s | 決定論的(Harp)/ 秒単位(ZooRoute) | ## 横断的知見 - **決定論的パス制御がランダム切替より優れる**: MPTCP・PRR 等はランダムに新パスを試すため「切替先も障害パスである」リスクがある。Harp([[@2026__NSDI__Harp - Improving VPC Network Availability via Efficient Failure Detection and Rerouting in Tencent Cloud]])は ECMP ハッシュ線形性を利用した決定論的な UDP ソースポート制御で各パスを特定し、健全パスにのみ切替を行う。この設計により 1 回の切替で健全パスに到達できる確率が 85%(高トラフィックケース)まで上がる。(Source: [[@2026__NSDI__Harp - Improving VPC Network Availability via Efficient Failure Detection and Rerouting in Tencent Cloud]] §3.2, §7) - **インバンド検知と帯域オーバーヘッドのトレードオフ**: アウトオブバンドプローブ(Pingmesh 系)は専用パケット送信でネットワーク帯域を消費し大規模環境での採用を難しくする。Harp のインバンド方式(VM パケット内 28 バイト埋め込み + ビットマップ圧縮)は MTU 1500 バイト時 1.87% のスループット減少にとどまり、R-Pingmesh([[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]])がミリ秒間隔のプローブで問題になる大規模環境でも適用可能。(Source: [[@2026__NSDI__Harp - Improving VPC Network Availability via Efficient Failure Detection and Rerouting in Tencent Cloud]] §4.3) - **グレイ障害には「パス健全性の直接監視」が必要**: Pingmesh 系の集約パケットロス率では、特定フローへの選択的ドロップやリンク輻輳をアラートに変えるほど率が上がらないため見逃す。Harp はパス単位の健全状態を直接追跡するため、パケットロス率が閾値以下のグレイ障害でも検知する(Figure 11(c)(d))。同様の観察は [[ネットワーク監視]] の SkyNet([[@2025__SIGCOMM__SkyNet - Analyzing Alert Flooding from Severe Network Failures in Large Cloud Infrastructures]])でも「単一データソースのカバレッジ限界(3-84%)」として確認される。(Source: [[@2026__NSDI__Harp - Improving VPC Network Availability via Efficient Failure Detection and Rerouting in Tencent Cloud]] §6.1) - **回復速度とカバレッジはトラフィック密度に依存**: Harp の回復品質はパス利用率(= 監視できているパスの比率)に比例する。コアスイッチ障害(高パス利用率: 90% のホスト対が 90% のパスを使用)では P50 = 48-97 ms で 1 切替 85%。DCI スイッチ障害(低パス利用率: 90% のホスト対が 30% のパスしか使わない)では P50 = 80 ms だが 43% が 2-4 切替必要。(Source: [[@2026__NSDI__Harp - Improving VPC Network Availability via Efficient Failure Detection and Rerouting in Tencent Cloud]] §6.2) ## 未解決の問い - **低トラフィスト時の先制的パスプローブ**: Harp はトラフィックが少ないと健全状態が不明なパスが多くなる。能動的なプローブ送信を最小限に抑えつつカバレッジを維持する最適戦略は何か。現状の「パス利用率が閾値以下なら一時的にリダイレクト」は何ホップ先の低利用パスまで有効か。 - **マルチテナント環境でのパスプール管理**: 同一ホスト上の複数テナントの VM が異なる宛先と通信する場合、パスプールのサイズ(ホスト対 × 64 ポート)はどのくらいまでメモリ効率を維持できるか。Tencent の実測(80K+ サーバで 13.5 MB)は均等配置を前提とするが、テナント密度が偏った場合は？ - **物理診断との統合最適化**: Harp は障害を迂回するだけで根本原因を修正しない。物理診断モジュールとの役割分担(Harp で回避、診断で修復)を前提としたとき、物理診断の結果を Harp のパスプール更新に活用して回復品質を上げる余地はあるか。 - **IPv6・SRv6 環境への拡張**: Tencent の IPv4 オンリー環境でのみ検証されている。IPv6 + Segment Routing 環境では別のパス制御機構が必要だが、同様の決定論的パス制御を実現できるか。 - **AI 学習ワークロードへの適用**: RDMA/RoCE 環境では R-Pingmesh([[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]])のようなミリ秒間隔プローブが必要になる。Harp の検知サイクル設定(数十ミリ秒)は RDMA の要求レイテンシを満たせるか、またはインバンド埋め込み手法を RDMA パケットに適用できるか。 ## 関連 - 概念: [[ネットワーク監視]] / [[グレイ障害]] / [[障害緩和]] / [[Fat-Tree]] / [[RDMAネットワーク監視]] / [[フォールトトレランス]] - ソース: [[@2026__NSDI__Harp - Improving VPC Network Availability via Efficient Failure Detection and Rerouting in Tencent Cloud]] / [[@2025__SIGCOMM__SkyNet - Analyzing Alert Flooding from Severe Network Failures in Large Cloud Infrastructures]] / [[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]] - 組織: [[Tencent]] - MOC: [[structures/LLM4SRE - MOC]] への一方向参照(ネットワーク信頼性文脈) ## 出典 - [[@2026__NSDI__Harp - Improving VPC Network Availability via Efficient Failure Detection and Rerouting in Tencent Cloud]] §2(背景)・§3(設計)・§4(検知)・§6(本番事例)・§7(評価)