@2024__SC-W 2024__Benchmarking Ethernet Interconnect for HPC AI workloads

> [!abstract] 概要 > HPC/AI ワークロードを対象に、Huawei の HPC Ethernet インターコネクト(100GE/200GE)と InfiniBand の性能を MPI ベースのマイクロベンチマークで比較した実証論文。二つのクラスタ(HAICGU: 100GE Ethernet + 100Gbps IB の二パーティション構成、Nanjing: 200GE Ethernet、いずれも Huawei CPU/NIC/スイッチ)で、点対点・インキャスト・AllToAll・AllReduce を計測した。大きなメッセージ(32 KiB 以上)では Ethernet が InfiniBand に競合する一方、小さなメッセージや AllReduce では InfiniBand が有利なことを示す。AllReduce の予期せぬ性能上限問題(約 20 Gbit/s)は調査中であり、ホスト側の設定に起因すると推定される。 ## 論文情報 - タイトル: Benchmarking Ethernet Interconnect for HPC/AI workloads - 著者: [[Lorenzo Pichetti]]・[[Daniele De Sensi]]・[[Karthee Sivalingam]]・[[Stepan Nassyr]]・[[Daniele Cesarini]]・[[Matteo Turisini]]・[[Dirk Pleiter]]・[[Aldo Artigiani]]・[[Flavio Vella]] - 掲載: SC-W 2024(SC24 ワークショップ、2024-11-17〜22、Atlanta, Georgia, USA) - DOI/IEEE: 979-8-3503-5291-7/24 - 責任著者: Lorenzo Pichetti, Daniele De Sensi, Flavio Vella ## システム構成 ### HAICGU(Ethernet/InfiniBand 二パーティション) - 設置場所: Goethe University of Frankfurt(OEHI 管理) - CPU: 2× HiSilicon Kunpeng 920-6426(64 コア、2.6 GHz、ARMv8.2-A) - NIC: Mellanox/NVIDIA ConnectX-5 MCX555A-ECAT(4×25 GbE/100 GbE/100Gbps EDR IB) - Ethernet パーティション(cn-eth): 10 ノード、Huawei CE8850 スイッチ(100GE シングルリーフ) - InfiniBand パーティション(cn-ib): 10 ノード、Mellanox SwitchIB 2 EDR 100 Gb/s(ノンブロッキング) - 各ノードは共通ハードウェア・ソフトウェアスタック ### Nanjing ラボ - スパイン・リーフ構成(二段ファットツリー): Huawei CE9855 × 3(スパイン 1、リーフ 2) - CPU: 2× 48 コア Kunpeng920、2.6 GHz - NIC: Mellanox ConnectX-6(200GE) - 各ノードは 200GE でインターコネクト - リーフ 1 台あたり 4 ノード接続、スパイン経由の通信が発生 ### Huawei HPC Ethernet の固有機能 Huawei の HPC Ethernet は以下の独自機能を Ethernet 標準の上に追加する。 1. **損失防止**: Priority-based Flow Control(PFC)により RoCEv2 トラフィックのパケットロスを防止。ロスレス・低レイテンシ・高スループット環境を実現。 2. **PFC デッドロック防止**: デッドロックを引き起こしうるサービスフローを特定しキュー優先度を変更。 3. **AI ECN**: 観測されたトラフィック特性に基づいてロスレスキューの ECN 閾値をインテリジェントに調整し、低レイテンシ・高スループット・ゼロパケットロスを実現。 4. **NSLB(Network Scale Load Balancing)**: 観測されたトラフィック特性に基づいてトラフィックを適応的にルーティング。 5. **ECN オーバーレイ**: VXLAN ネットワークに ECN を適用し、オーバーレイネットワーク上の輻輳をタイムリーに検知して送信レートを削減。 ### 性能チューニング - ConnectX NIC をデフォルトのインボックスドライバから OFED ドライバへ移行 - RoCEv2 モードの確認: `cma_roce_mode` - PFC をキュー 3 に限定: `mlnx_qos --pfc 0,0,0,1,0,0,0,0 --trust dscp` - MTU を 9000 バイトに設定 ## ベンチマーク手法 - すべての実験を排他実行(他ジョブの干渉排除) - ノードあたり 1 MPI プロセス - 通信子の生成時間は計測から除外 - バッファサイズに応じて 100〜1,000 回繰り返し - 集合通信は関与するすべてのランクの最大時間(最低スループット)を報告 - 帯域幅 = 集約メッセージサイズ ÷ 最大完了時間(Gbit/s 単位) - 理論ピーク = NIC の単方向データ転送ピーク(HAICGU: 100 Gbit/s、Nanjing: 200 Gbit/s) ## 実験結果 ### 点対点(Point-to-Point) - HAICGU: 大きなメッセージ(32 KiB 以上)で Ethernet と InfiniBand の帯域差は 4% 未満。ただし InfiniBand が常に上回る。 - 小さなメッセージ(512 B 未満)では InfiniBand が最大 1.6× の差をつける(Ethernet/RoCEv2 のヘッダオーバーヘッド起因)。 - **観察 1**: 32 KiB 以上のメッセージサイズでの Ethernet–InfiniBand 性能差は常に 4% 未満。 - Nanjing: イントラスイッチ(同一スイッチ下のノード間)対インタースイッチ(スパイン経由)の比較。小メッセージ(1〜512 B)でスパイン経由は約 2× の遅延増加、大メッセージ(1〜128 MiB)では差は約 1.04× に縮小。リンク 1 本とスイッチ 1 台の往復レイテンシを約 1.11 µs と推定。 ### インキャスト(Incast) - HAICGU(10 ノード)・Nanjing(4 ノード/8 ノード)で実施。 - HAICGU では小メッセージでも Ethernet と InfiniBand の差は 20% 以内、32 KiB 以上では 1% 以内あるいは差なし。 - Nanjing でも同様。全インスタンスで理論ピークの 96% 以上を達成。 - **観察 2**: インキャストトラフィックで Ethernet は InfiniBand と同等。全メッセージサイズで差は 20% 未満、32 KiB 超では 1% 以内。 ### AllToAll・AllReduce - AllToAll: Nanjing で 16 MiB メッセージまで理論ピークの 66% に到達。HAICGU では 128 MiB で Ethernet が 58% まで落ち込む一方 InfiniBand は 81% を維持——論文内で観測された最大の差。 - AllReduce: Nanjing と HAICGU の双方で約 20 Gbit/s の予期せぬ上限を観測。スイッチレベルのカウンタに異常なし。InfiniBand・Ethernet 双方に同様の上限が現れるため、ネットワーク起因でなくホスト固有の問題と推定。二ホスト直結でも同じ上限を確認。 - **観察 3**: 128 MiB の AllToAll を除く、32 KiB 以上の AllToAll・AllReduce で Ethernet と InfiniBand の差は 3% 未満。 **Figure 2: ワークフロー** ![[_attachments/2024_EthernetHu/fig2-workflow.png]] (Figure 2. point-to-point results over the considered systems. The x-axis represents the buffer size exchanged by the two MPI proce に関する処理フローを示す。) **Figure 3: ワークフロー** ![[_attachments/2024_EthernetHu/fig3-workflow.png]] (Figure 3. incast results over the considered systems, Nanjing was measured on both the system-wide and the leaf-wide test cases. T に関する処理フローを示す。) **Figure 4: ワークフロー** ![[_attachments/2024_EthernetHu/fig4-workflow.png]] (Figure 4. Collective results over the system-wide test cases. The x-axis represents the message size that each MPI process exchang に関する処理フローを示す。) **Figure 1: アーキテクチャ** ![[_attachments/2024_EthernetHu/fig1-architecture.png]] (Figure 1. Interconnect architectures of the clusters used for benchmarking に関するアーキテクチャを示す。) ## 考察 - 大きなメッセージ(32 KiB 以上)では Ethernet は HPC/AI の大半のワークロードで InfiniBand に競合することを実証。 - レイテンシは InfiniBand が約 1.4× 上回る。低レイテンシが重要な小メッセージ多発ワークロードでは依然 InfiniBand が有利。 - AllReduce の性能上限は引き続き調査中。ホスト設定の問題と推定されるが根本原因は未特定。 - GPU 中心の通信シナリオ(GPU-to-GPU 通信)での評価が今後の課題。 - UltraEthernet Consortium(UEC)の次世代仕様により、さらなる性能向上が期待される。 ## 今後の方向性 - マイクロベンチマーク結果を実際の HPC/AI アプリケーション(LAMMPS, OpenFOAM, GROMACS 等)で検証。 - GPU 中心のシナリオ(GPU-to-GPU 通信、NVLink/PCIe 経由でない直接 RDMA)での評価。 - AllReduce の性能上限問題の根本原因特定。 ## 関連 - 概念: [[RDMA]] / [[オープンネットワーキング]] / [[集合通信]] / [[HPCインターコネクトベンチマーク]] - 機関: [[University of Trento]] / [[Sapienza University of Rome]] / [[CINECA]] / [[Huawei Technologies]] / [[ParTec]] / [[KTH]] - 著者: [[Lorenzo Pichetti]] / [[Daniele De Sensi]] / [[Karthee Sivalingam]] / [[Stepan Nassyr]] / [[Flavio Vella]] - 関連ソース: [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] / [[@2015__SIGCOMM__Congestion Control for Large-Scale RDMA Deployments]] / [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]] ## 出典 - PDF 原本: `.raw/papers/2024_EthernetHu.pdf` - URL: https://danieledesensi.github.io/assets/pdf/2024_EthernetHu.pdf - 掲載: SC-W 2024, November 17-22, 2024, Atlanta, Georgia, USA