# HPCインターコネクトベンチマーク ## 定義 HPC インターコネクトベンチマーク(HPC Interconnect Benchmark)とは、クラスタ間の通信経路(ファブリック)の性能——帯域幅・レイテンシ・スケーラビリティ・輻輳耐性——を MPI/RDMA などの標準プリミティブを用いて定量化する評価手法の総称である。代表的なパターンとして、点対点(latency + bandwidth)・インキャスト(輻輳制御)・AllToAll・AllReduce などの集合通信が用いられる。Ethernet 対 InfiniBand のように異種ファブリックを比較したり、同一ファブリックのトポロジ違い(イントラスイッチ対インタースイッチ)を比較したりする文脈で多用される。([[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]]) ## 横断的知見 - **「大きなメッセージ」という閾値が Ethernet/IB 対比の分水嶺になる**: [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]](SC-W 2024)は 32 KiB 以上のメッセージで Ethernet と InfiniBand の帯域差が 4% 未満に収まることを示した。[[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] は MLPerf 訓練で 800 GbE の RoCEv2 ファブリックが InfiniBand クラスタ(NVIDIA Eos)に time-to-train でおおむね同等以上を達成することを示した。LLM 訓練の AllReduce/AllGather は大半が大きなテンソル交換であるため、Ethernet ベースファブリックが実際の AI/HPC ワークロードで競合できることを両論文が独立に支持している。(Source: [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]], [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]]) - **小さなメッセージ・レイテンシでの差は残存する**: SC-W 2024 は 512 B 未満の小メッセージで InfiniBand が最大 1.6× 上回り、AllReduce の異常な 20 Gbit/s 上限問題もホスト側に起因すると推定しながら未解決と認めた。SAKURAONE の MLPerf ではレイテンシ重視の小メッセージベンチマークへの言及は少ない。低レイテンシ・小メッセージ依存ワークロード(例: HPL の境界通信、ファインチューニングの短いシーケンス)では InfiniBand の優位が残存すると見られる。(Source: [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]], [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]]) - **ベンチマーク結果の環境依存性**: SC-W 2024 は Huawei 製 CPU(Kunpeng920)/NIC(ConnectX-5/6)/スイッチ(CE8850/CE9855)の組み合わせで評価を行っており、性能チューニングの前後でも結果が大きく変わりうる。SAKURAONE は Supermicro/Intel/Mellanox/Edgecore の異なる機材構成で実証した。同じ「Ethernet vs IB」の比較でも、システムスタック全体の品質——NIC ドライバ・ECN/PFC 設定・MPI 実装——が数字を左右することを示唆する。(Source: [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]], [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]]) - **インキャストは Ethernet の輻輳制御の試金石**: SC-W 2024 のインキャストテストでは全ノードから 1 ノードへ同時送信する最悪輻輳シナリオで Ethernet が理論ピークの 96% 以上を維持し、InfiniBand との差が 20% 以内(32 KiB 超で 1% 以内)に収まった。これは Huawei の AI ECN + NSLB + PFC デッドロック防止機構の組み合わせが機能していることを示す。(Source: [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]]) ## 未解決の問い - AllReduce の約 20 Gbit/s 上限はホスト設定問題と推定されているが根本原因が未特定。同様の上限が他の Kunpeng920 ベースシステムでも再現するか。 - 128 MiB の AllToAll で HAICGU Ethernet が 58%(IB の 81%)に落ち込む理由は何か。スイッチカウンタには異常がなく、バッファ管理・フロー衝突・NIC キューの問題のどれが支配的か。 - Huawei 独自の AI ECN/NSLB/PFC デッドロック防止を除いた場合に、標準的な DCQCN のみで同等の輻輳耐性を出せるか。これらの独自機能が実際にどの程度寄与しているか。 - GPU 中心の通信(GPU-to-GPU RDMA、NVLink 経由でない直接転送)での性能比較は未実施。エージェント AI ワークロード等でフロー特性が変わる場合、どう変化するか。 - InfiniBand レイテンシ優位(約 1.4×)は、実際の LLM 訓練のイテレーション時間にどの程度影響するか。MFU (Model FLOPS Utilization)の差として現れるか。 - UltraEthernet Consortium(UEC)の次世代仕様が実装された場合、小メッセージ・レイテンシでのギャップはどこまで縮まるか。 ## 関連 - 概念: [[RDMA]] / [[オープンネットワーキング]] / [[集合通信]] - ソース: [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]] / [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] - エンティティ: [[Lorenzo Pichetti]] / [[Daniele De Sensi]] / [[Flavio Vella]] / [[Huawei Technologies]] / [[CINECA]] - 関連 MOC: [[分散深層学習 - MOC]] ## 出典 - [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]](点対点・インキャスト・AllToAll・AllReduce の MPI ベースベンチマーク、HAICGU + Nanjing クラスタ、100GE/200GE Ethernet 対 EDR InfiniBand) - [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]](MLPerf GPT-3 175B / Llama 2 70B で 800 GbE RoCEv2 と NVIDIA Eos IB の time-to-train 比較、MFU 35.9〜41.2%)