# RDMAネットワーク監視
## 定義
RDMA ネットワーク監視は、lossless Ethernet 上の RDMA(RoCE)や InfiniBand で構成される AI/HPC クラスタのネットワークを、固有の障害(PFC deadlock/storm、QPC キャッシュ消費、silent drop、RNIC 起因ドロップ、PFC 設定ミス)を含めて検知・箇所特定し、サービス影響を評価する取り組み。[[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]] はエンドツーエンドの能動プロービングに基づく初のサービス認識型 RoCE 監視・診断システムで、市販 RNIC の UD QP と CQE タイムスタンプでネットワーク RTT とエンドホスト処理遅延を低オーバーヘッドで測り、RNIC 起因とネットワーク内ドロップを区別し、問題がネットワーク起因かを判定する。TCP プローブ([[papers/2015__SIGCOMM__Pingmesh - A Large-Scale System for Data Center Network Latency Measurement and Analysis|Pingmesh]] 2015)では RoCE 固有問題を検知できない点が出発点。[[テレメトリ]] の一系統で、[[LLM学習モニタリング]] のネットワーク視点と接続する。
## 横断的知見
- **監視の構え(stance)が「能動プローブ・受動トラフィック・フルスタック計装」の三系統に分かれる**: [[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]] は市販 RNIC からエンドツーエンドにプローブを撃つ能動方式で、ERSPAN/INT(レガシースイッチ非対応)を避け展開容易性を優先する。[[@2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]] は NIC 上で実トラフィックをマイクロ秒粒度に計測する受動・非侵入方式。[[@2025__SIGCOMM__Astral - A Datacenter Infrastructure for Large Language Model Training at Scale]] はアプリ〜物理の 4 層を計装し sFlow+INT でパス解析するフルスタック方式。同じ RDMA ネットワークでも「外から撃つ/内で測る/全層を計装する」で展開コストと可観測性の取り方が分岐する。(Source: [[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]], [[@2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]], [[@2025__SIGCOMM__Astral - A Datacenter Infrastructure for Large Language Model Training at Scale]])
- **「サービス障害がネットワーク起因か」を切り分けることが監視の中心価値になる**: R-Pingmesh は NCCL の "error code 12" のようにサービスログがネットワーク問題を装う事例を挙げ、ネットワーク無罪の証明(異常プローブの不在確認)を一次目的に据える(サービス認識)。これは [[Astral]] が層間ログ相関で「計算異常なら物理層、通信異常ならパス重複/INT 遅延」と切り分けるのと同じ問題意識で、大規模 LLM 訓練ではネットワークと end-host の責任分界を素早く付けることがダウンタイム短縮に直結する([[GPUクラスタ運用]])。(Source: [[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]], [[@2025__SIGCOMM__Astral - A Datacenter Infrastructure for Large Language Model Training at Scale]])
- **箇所特定はネットワークトモグラフィ的な投票で実装される**: R-Pingmesh は二分ネットワークトモグラフィに着想した投票機構(異常プローブ経路で各リンクの通過回数を数え最多得票を最疑とする)で物理リンク/スイッチを箇所特定し、6 か月・数万 RNIC の本番運用で報告 157 件のスイッチ問題を全件正確に特定した一方、RNIC 問題は CPU 占有由来の偽陽性で精度が落ちる。能動プローブ単独では end-host 起因と network 起因の弁別が誤箇所特定を生むという観察は、[[Fault Localization]] の「単一信号では起因の層を取り違える」課題の RDMA 版。(Source: [[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]])
- **計装位置の三分岐がさらに「スイッチ・データプレーン/集団通信ライブラリ層/物理部品」へ広がる**: [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]] は P4 でプログラム可能なスイッチ(Intel Tofino)のデータプレーン内で PFC 因果関係を線速解析し、来歴(プロベナンス)を辿って異常タイプ(backpressure/storm/deadlock)を診断する——計装点がスイッチ ASIC にある。[[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]] の C4 は集団通信ライブラリ([[ACCL]])を拡張し、BSP 同期点での各 GPU 到達タイミングのずれと通信遅延行列から異常を検知するホスト・ライブラリ層の計装。[[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]] の OptProphet は光トランシーバーの物理メトリクスから故障を予測する物理部品層の計装。既存の R-Pingmesh(市販 RNIC からの能動プローブ)・Pulse(NIC 上の受動マイクロ秒計測)・Astral(全層計装)と並べると、「スイッチ vs NIC/DPU vs ホスト/集団通信ライブラリ vs 物理部品(光モジュール)」のどこを計測点に置くかが RDMA 監視の設計軸として立ち上がる。各手法は計測点に応じて可視化できる異常の層が固定される(Hawkeye は PFC 連鎖、C4 は通信律速、OptProphet は物理劣化)。(Source: [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]], [[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]], [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]])
- **「反応(即時診断)」と「予防(故障前予測)」へ時間軸が分かれる**: Hawkeye は苦情の出たフローから上流の根本原因へ来歴を遡り、性能異常を 90% 以上の精度で即時診断する。C4 は故障検知を数時間から数十秒へ短縮し、エラー誘発ダウンタイムを 31.19% から 1.16% へ削減する——いずれも劣化が顕在化してから素早く切り分ける反応型。対して OptProphet は光トランシーバー故障を平均 1.11 日前に予測してアラームを上げる予防型。同じ RDMA/光ネットワークでも、診断レイテンシを縮める方向(反応)と、故障の前に先回りする方向(予防)に設計が分岐する。([[障害予測]])(Source: [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]], [[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]], [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]])
- **集団通信を律速する根因が物理/リンク層へ降りる**: OptProphet が扱う光トランシーバーの物理故障、Hawkeye が辿る PFC の連鎖的輻輳拡散(lossless を保つための pause が backpressure→storm→deadlock と広がる)、C4P がパス探査で回避するフォルトリンクは、いずれもソフトウェア層でなく物理/リンク層の劣化が[[集合通信]]のスループットを律速する構図。R-Pingmesh の物理リンク/スイッチ箇所特定や Astral の「計算異常なら物理層」という切り分けと合わせ、大規模 LLM 訓練の RDMA 監視では根因の探索が物理層へ降りていく傾向が読み取れる。(Source: [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]], [[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]], [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]])
- **網羅監視と probing 削減のトレードオフ**: [[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]] が RoCE を service-aware に網羅監視するのに対し、[[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]] はトラフィックスケルトン推論で probing を 2 桁削減しつつ precision 98.2% を狙う(両者 Alibaba Cloud 系、underlay の traceroute で R-Pingmesh/007 を踏襲)。(Source: [[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]], [[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]])
- **同じデータ源を別目的に使う**: ERSPAN/ROCET のスイッチ層パケットミラーリングは元来ネットワーク障害検知用だが、[[@2025__DSN__LLMPrism - Black-box Performance Diagnosis for Production LLM Training Platforms]] はそのフローデータを上位アプリ(訓練ステップ)の意味解釈へ転用する。(Source: [[@2025__DSN__LLMPrism - Black-box Performance Diagnosis for Production LLM Training Platforms]])
## 未解決の問い
- 能動プローブ(R-Pingmesh)・受動トラフィック(Pulse)・フルスタック計装(Astral)を併用したとき、計装オーバーヘッドと箇所特定精度はどう配分するのが最適か。
- IB(InfiniBand)の Adaptive Routing 下では経路が固定されず、経路集約に基づく箇所特定が崩れる。Adaptive Routing でのトモグラフィ的局所化をどう実現するか(R-Pingmesh の将来課題)。
- ネットワーク監視と GPU/コンピュート異常検知(GPU underclocking・OOM・down、[[GPUレジリエンス]])をどう統合し、サービス障害の起因層を一括で絞り込むか。
- RoCE/オープンスタック([[オープンネットワーキング]]、SAKURAONE の SONiC+RoCEv2)の層をまたぐチューニング負荷を、監視・診断はどこまで肩代わりできるか。
- スイッチ・データプレーン側(Hawkeye)・NIC/DPU 側(Pulse)・集団通信ライブラリ層(C4)・物理部品予測(OptProphet)の計測点をどう分業・統合すれば、各手法が固定的に可視化する層(PFC 連鎖・通信律速・物理劣化)を一つの診断パイプラインに束ねられるか。計測点ごとに見える異常が異なる以上、単一の計装では起因層を取り違える R-Pingmesh の課題が層をまたいで再帰しないか。
- PFC 連鎖輻輳の即時診断(Hawkeye)と光トランシーバー故障の事前予測(OptProphet)を結べば、光リンクの物理劣化が PFC backpressure として顕在化する前に、劣化しつつあるリンクを先回りで切り離せるか。反応型診断と予防型予測の接続が fail-slow リンクの早期隔離につながるか。
- 標準的集団通信に従わないワークロードでスケルトン推論の忠実度をどう事前保証するか。([[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]])
- フロー単位の粒度で捉えられない短時間の輻輳・マイクロバーストは性能診断にどの程度の見逃しを生むか。([[@2025__DSN__LLMPrism - Black-box Performance Diagnosis for Production LLM Training Platforms]])
## 関連
- ソース: [[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]] / [[@2025__SIGCOMM__Astral - A Datacenter Infrastructure for Large Language Model Training at Scale]] / [[@2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]] / [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]] / [[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]] / [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]] / [[@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training]] / [[@2025__DSN__LLMPrism - Black-box Performance Diagnosis for Production LLM Training Platforms]]
- 概念: [[テレメトリ]](能動/受動の計装) / [[オープンネットワーキング]](RoCE/Ethernet) / [[LLM学習モニタリング]](ネットワーク視点) / [[Fault Localization]] / [[GPUクラスタ運用]] / [[障害予測]](OptProphet の予防型)
- エンティティ: [[R-Pingmesh]] / [[Astral]] / [[Pulse]] / [[Kefei Liu]] / [[Jiao Zhang]] / [[BUPT]] / [[Douyin Vision]] / [[NCCL]]
- 関連 MOC: [[HPC - MOC]] / [[分散深層学習 - MOC]]
## 出典
- [[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]](§4 設計, §6 評価, §7.1 問題分類 + 表2)
- [[@2025__SIGCOMM__Astral - A Datacenter Infrastructure for Large Language Model Training at Scale]](§3 フルスタック監視・階層相関)
- [[@2026__ASPLOS__Pulse - Fine-grained and Non-intrusive LLM Training Monitoring via Microsecond-level Traffic Measurement]](§4 NIC Agent 計測)
- [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]](§提案手法 データプレーン内 PFC 因果関係解析・異種 wait-for プロベナンスグラフ、§実験結果 精度 90%+/オーバーヘッド 1-4 桁減)
- [[@2025__HPCA__Enhancing Large-Scale AI Training Efficiency - The C4 Solution for Real-Time Anomaly Detection and Communication Optimization]](C4D=ACCL 拡張・BSP 同期点・通信遅延行列、C4P=RDMA 動的負荷分散・パス探査によるフォルトリンク回避)
- [[@2025__APNET__Forewarned is Forearmed - Joint Prediction and Classification of Optical Transceiver Failures in Large-Scale LLM Training Clusters]](Abstract:光トランシーバー故障の予測+分類、F1 0.884、平均 1.11 日前アラーム)