HPCインターコネクトベンチマーク

# HPCインターコネクトベンチマーク ## 定義 HPC インターコネクトベンチマーク(HPC Interconnect Benchmark)とは、クラスタ間の通信経路(ファブリック)の性能——帯域幅・レイテンシ・スケーラビリティ・輻輳耐性——を MPI/RDMA などの標準プリミティブを用いて定量化する評価手法の総称である。代表的なパターンとして、点対点(latency + bandwidth)・インキャスト(輻輳制御)・AllToAll・AllReduce などの集合通信が用いられる。Ethernet 対 InfiniBand のように異種ファブリックを比較したり、同一ファブリックのトポロジ違い(イントラスイッチ対インタースイッチ)を比較したりする文脈で多用される。([[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]]) ## 横断的知見 - **「大きなメッセージ」という閾値が Ethernet/IB 対比の分水嶺になる**: [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]](SC-W 2024)は 32 KiB 以上のメッセージで Ethernet と InfiniBand の帯域差が 4% 未満に収まることを示した。[[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] は MLPerf 訓練で 800 GbE の RoCEv2 ファブリックが InfiniBand クラスタ(NVIDIA Eos)に time-to-train でおおむね同等以上を達成することを示した。LLM 訓練の AllReduce/AllGather は大半が大きなテンソル交換であるため、Ethernet ベースファブリックが実際の AI/HPC ワークロードで競合できることを両論文が独立に支持している。(Source: [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]], [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]]) - **小さなメッセージ・レイテンシでの差は残存する**: SC-W 2024 は 512 B 未満の小メッセージで InfiniBand が最大 1.6× 上回り、AllReduce の異常な 20 Gbit/s 上限問題もホスト側に起因すると推定しながら未解決と認めた。SAKURAONE の MLPerf ではレイテンシ重視の小メッセージベンチマークへの言及は少ない。低レイテンシ・小メッセージ依存ワークロード(例: HPL の境界通信、ファインチューニングの短いシーケンス)では InfiniBand の優位が残存すると見られる。(Source: [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]], [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]]) - **ベンチマーク結果の環境依存性**: SC-W 2024 は Huawei 製 CPU(Kunpeng920)/NIC(ConnectX-5/6)/スイッチ(CE8850/CE9855)の組み合わせで評価を行っており、性能チューニングの前後でも結果が大きく変わりうる。SAKURAONE は Supermicro/Intel/Mellanox/Edgecore の異なる機材構成で実証した。同じ「Ethernet vs IB」の比較でも、システムスタック全体の品質——NIC ドライバ・ECN/PFC 設定・MPI 実装——が数字を左右することを示唆する。(Source: [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]], [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]]) - **インキャストは Ethernet の輻輳制御の試金石**: SC-W 2024 のインキャストテストでは全ノードから 1 ノードへ同時送信する最悪輻輳シナリオで Ethernet が理論ピークの 96% 以上を維持し、InfiniBand との差が 20% 以内(32 KiB 超で 1% 以内)に収まった。これは Huawei の AI ECN + NSLB + PFC デッドロック防止機構の組み合わせが機能していることを示す。(Source: [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]]) - **デフォルト設定は常に最適でなく、手動チューニングが必須**: [[@2024__SC__Exploring GPU-to-GPU Communication - Insights into Supercomputer Interconnects]](SC 2024)は3台のスーパーコンピュータ(Alps・Leonardo・LUMI)で GPU 間インターコネクトを最大4,096 GPU 規模で評価し、デフォルト設定から `NCCL_IGNORE_CPU_AFFINITY`・`NCCL_NET_GDR_LEVEL`・`HSA_ENABLE_SDMA` などを変更することで allreduce を最大6倍改善できることを示した。ベンチマーク数値はソフトウェア設定の関数であり「デフォルトの数値」は実力を表さない。(Source: [[@2024__SC__Exploring GPU-to-GPU Communication - Insights into Supercomputer Interconnects]]) - **通信 API(MPI vs *CCL)の優劣はスコープによって逆転する**: SC 2024 は同一システム内での比較で「ノード内集団通信では*CCL が優位・ノード間点対点では MPI が最大10倍高速」という非対称な結論を示した。SC-W 2024 は GPU-Aware MPI と標準 MPI の帯域比較を行い、GDRCopy の有無が小メッセージで大きく性能を左右することを示した。通信 API の選択はメッセージサイズ・操作の種類(点対点 vs 集団通信)・トポロジ・ソフトウェアスタックのすべてに依存するという多軸の問題であることが、複数のシステム比較によって明確になった。(Source: [[@2024__SC__Exploring GPU-to-GPU Communication - Insights into Supercomputer Interconnects]], [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]]) - **ネットワークノイズは InfiniBand Dragonfly+ を特に強く劣化させる**: SC 2024 は Leonardo(InfiniBand HDR Dragonfly+)でネットワークノイズが allreduce を最大50%・alltoall を最大20%低下させることを実本番ワークロードと比較できるサービスレベル差分実験で初めて定量化した。同じ Slingshot-11 採用の Alps/LUMI はノイズの影響が小さく、ファブリック技術の違いがノイズ耐性に直結することを複数システムの実機比較で示した。(Source: [[@2024__SC__Exploring GPU-to-GPU Communication - Insights into Supercomputer Interconnects]]) ## 未解決の問い - AllReduce の約 20 Gbit/s 上限はホスト設定問題と推定されているが根本原因が未特定。同様の上限が他の Kunpeng920 ベースシステムでも再現するか。 - 128 MiB の AllToAll で HAICGU Ethernet が 58%(IB の 81%)に落ち込む理由は何か。スイッチカウンタには異常がなく、バッファ管理・フロー衝突・NIC キューの問題のどれが支配的か。 - Huawei 独自の AI ECN/NSLB/PFC デッドロック防止を除いた場合に、標準的な DCQCN のみで同等の輻輳耐性を出せるか。これらの独自機能が実際にどの程度寄与しているか。 - InfiniBand レイテンシ優位(約 1.4×)は、実際の LLM 訓練のイテレーション時間にどの程度影響するか。MFU (Model FLOPS Utilization)の差として現れるか。 - UltraEthernet Consortium(UEC)の次世代仕様が実装された場合、小メッセージ・レイテンシでのギャップはどこまで縮まるか。 - Leonardo の InfiniBand Dragonfly+ でのネットワークノイズ問題はルーティングアルゴリズムの改善で解決できるか。現状サービスレベル切り替えは暫定対策にすぎない。([[@2024__SC__Exploring GPU-to-GPU Communication - Insights into Supercomputer Interconnects]]) - NCCL/RCCL の alltoall が大規模(512+ GPU)でスタックするバグは何が原因で、どのバージョンで修正されたか。([[@2024__SC__Exploring GPU-to-GPU Communication - Insights into Supercomputer Interconnects]]) - Alps の早期アクセス段階での評価結果は本番環境でどのように変化したか。NVLink 4.0 フルスペックでのチューニング後の数値は何か。([[@2024__SC__Exploring GPU-to-GPU Communication - Insights into Supercomputer Interconnects]]) ## 関連 - 概念: [[RDMA]] / [[オープンネットワーキング]] / [[集合通信]] / [[GPUクラスタ運用]] - ソース: [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]] / [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] / [[@2024__SC__Exploring GPU-to-GPU Communication - Insights into Supercomputer Interconnects]] - エンティティ: [[Lorenzo Pichetti]] / [[Daniele De Sensi]] / [[Flavio Vella]] / [[Torsten Hoefler]] / [[CINECA]] / [[Tiziano De Matteis]] / [[Duncan Roweth]] / [[Animesh Trivedi]] / [[Huawei Technologies]] - 関連 MOC: [[分散深層学習 - MOC]] ## 出典 - [[@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads]](点対点・インキャスト・AllToAll・AllReduce の MPI ベースベンチマーク、HAICGU + Nanjing クラスタ、100GE/200GE Ethernet 対 EDR InfiniBand) - [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]](MLPerf GPT-3 175B / Llama 2 70B で 800 GbE RoCEv2 と NVIDIA Eos IB の time-to-train 比較、MFU 35.9〜41.2%) - [[@2024__SC__Exploring GPU-to-GPU Communication - Insights into Supercomputer Interconnects]](Alps/Leonardo/LUMI 3台のスーパーコンピュータ、最大4,096 GPU、8つの主要観察、ネットワークノイズの定量化)