# RDMA ## 定義 RDMA(Remote Direct Memory Access)は、リモートホストのメモリへ CPU を介さず NIC が直接読み書きする通信機構である。LLM 訓練や HPC では、InfiniBand または Ethernet 上の RoCEv2 として用いられ、低レイテンシ・高帯域の GPU 間通信を支える。 ## 横断的知見 - [[SAKURAONE]] は SONiC + RoCEv2 の open Ethernet で MLPerf Training を実行し、InfiniBand 系に近い time-to-train を示した。ただし ECN/PFC/NCCL channel striping などのクロスレイヤ調整が必要である。([[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]]) - RDMA は高性能な一方、PFC pause、head-of-line blocking、misbehaving flow など独自の障害モードを持つため、[[RDMAネットワーク監視]] が重要になる。([[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]]) - [[集合通信]] は RDMA の性能特性に強く依存する。NCCL/NCCLX のようなライブラリは、並列化次元ごとに通信パターンを使い分ける。 ## 未解決の問い - RoCEv2 + open Ethernet は、どの規模・トポロジ・テナント分離条件まで InfiniBand 代替として成立するか。 - RDMA ネットワークの障害を、LLM 訓練のストラグラー・MFU 低下・ジョブ失敗へどう因果的に結びつけるか。 - RPC ワークロードで RDMA を使う場合、[[クラウドスケールRPC特性]] のレイテンシ tax と CPU tax はどう変わるか。 ## 関連 - 概念: [[RDMAネットワーク監視]] / [[オープンネットワーキング]] / [[集合通信]] / [[LLM分散学習]] / [[クラウドスケールRPC特性]] - ソース: [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] / [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]] ## 出典 - [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] - [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]]