2025__arXiv__An Extensible Software Transport Layer for GPU Networking

## Memo ## Memo with LLM ### 論文情報 - **論文タイトル**: An Extensible Software Transport Layer for GPU Networking - **著者と所属**: - Yang Zhou（UC Berkeley & UC Davis）- ファーストオーサー - Zhongjie Chen（Tsinghua University） - その他12名の共著者（UC Berkeley, UC Davis, Harvard University, IBM Research, Amazon Web Services, University Polytehnica of Bucharest & Broadcom） - **カンファレンス/ジャーナル名**: arXiv preprint (arXiv:2504.17307) - **発表年**: 2025年（4月投稿） ### 論文概要本論文では、機械学習ワークロード向けのGPUネットワーキングを進化させるため、UCCL（Ultra-CCL）という拡張可能なソフトウェアトランスポート層を提案している。UCCLは既存の[[RDMA]] NICのデータパスと制御パスを分離し、制御パストランスポートをホストCPU上で効率的に実行することで、ハードウェアでは実現困難なトランスポート革新を可能にする。 ### 詳細解説 #### 問題設定 **入力**: 大規模機械学習ワークロードにおけるGPU間通信（AllReduce、AllGather、All-to-All等の[[集合通信]]） **出力**: 高性能かつ拡張可能なGPUネットワーク通信 **必要なデータ**: RDMA対応NIC、GPU間の大容量データ転送（数GB〜数TB）現在のRDMA NIC上のホストネットワークトランスポートは進化しにくく、以下の問題を抱えている： - シングルパスRDMAトラフィックによるフロー衝突 - ハードウェアベースの輻輳制御アルゴリズム（[[DCQCN]]）の機械学習ワークロードへの不適合性 - ベンダー固有の制御パス論理による性能低下 - 効率的な損失回復メカニズムの欠如 #### 提案手法 UCCLは以下の技術的アプローチを採用している： **1. 制御パスとデータパスの分離** - RDMA Unreliable Connection（UC）を活用してハードウェアベースの輻輳制御と信頼性論理をバイパス - RDMA immediate dataを使用して送信者と受信者CPU間でトランスポート制御状態を伝達 - UC未対応NICに対してはRDMA Unreliable Datagram（UD）のscatter-gather機能を利用 **2. 効率的なマルチパス活用** - UC/RC用に256個のQP（Queue Pair）を使用したマルチパス実装 - パケットスプレーイング技術により複数ネットワークパスを活用 - Power-of-Two samplingによる最低RTTパス選択 **3. ソフトウェア最適化技術** - コントロールコアレッシング（32KBチャンクサイズでの制御決定） - コネクション分割による複数CPUコアでの負荷分散 - [[GPUDirect]]によるCPUオーバーヘッド軽減 **具体的実装例**： ``` 制御ヘッダー（32ビット）の割り当て： - コネクションID: 8ビット（256接続） - メッセージID: 7ビット（128インフライトメッセージ） - チャンクシーケンス番号: 8ビット - 最終チャンク標識: 1ビット - 拡張制御用予約: 8ビット ``` #### 新規性先行研究との比較における主な新規性： 1. **既存ハードウェアの活用**: ZeroNICとは異なり、既存のRDMA NICハードウェアを改造せずに制御パスとデータパスを分離 2. **スケーラビリティ**: Florと比較してより高帯域幅（3.2+ Tbps）のMLアプリケーションに対応 3. **マルチパス対応**: AWS EFAのSRDと比較して、より多くのパス（256パス）を効率的に活用 4. **拡張性**: [[SmartNIC]]（Google Falcon、AMD Pensando）の制約を受けない完全なソフトウェア実装 #### 実験設定 **使用データセット**: - **CXテストベッド**: 2台のサーバー、[[InfiniBand]]、NVIDIA ConnectX-7 400G NIC、[[H100][]()] GPU - **EFAテストベッド**: 4台のAWS p4d.24xlargeインスタンス、AWS EFA 100G NIC、[[A100]] GPU **評価指標**: - 集合通信レイテンシとスループット（NCCL-testsを使用） - 実アプリケーション性能（[[ResNet]]分散学習、DeepSeek-V3風MoEサービング） - QP数に対するスケーラビリティ（最大60K QP） #### 実験結果 **集合通信性能**: - CXテストベッド: ConnectX-7とほぼ同等の性能（AllReduce、All-to-All） - EFAテストベッド: AWS SRDに対して最大3.3倍の性能向上 **実アプリケーション性能**: - ResNet分散学習: 1.07-1.11倍の学習時間短縮 - DeepSeek-V3風MoE: プリフィル1.13倍、デコーディング1.42倍の高速化 **拡張性機能の効果**: - 受信側駆動輻輳制御（EQDS）: ネットワークインキャスト下でP99/P99.9レイテンシを最大4.9倍改善 - 選択的再送: 0.01%パケットロス下で77%性能低下（従来）に対し3-23%の性能低下に抑制 **CPU効率性**: 1CPUコアで400Gbps単方向トラフィックを処理可能論文では、UCCLがハードウェアレベルの性能を維持しながら、従来のハードウェア制約を超えた拡張性を提供することを実証している。特に、パケットスプレーイングによるマルチパス活用と、ソフトウェアベースの柔軟な制御により、次世代MLワークロードの要求に対応可能な解決策を提示している。 ## Abstract 高速進化する機械学習（ML）ワークロードは、ネットワーキングに対する要求が増大している。しかし、RDMA NIC上のホストネットワークトランスポートは進化が困難であり、MLワークロードに問題を引き起こしている。例えば、シングルパスRDMAトラフィックはフロー衝突を起こしやすく、集合通信性能を大幅に低下させる。我々は、GPUネットワーキングを進化させる拡張可能なソフトウェアトランスポート層であるUCCLを提案する。UCCLは既存のRDMA NICのデータパスと制御パスを分離し、制御パストランスポートをホストCPU上で効率的に実行する。このソフトウェア拡張性により、MLワークロードに対してハードウェアでは達成できないトランスポート革新がもたらされる。例えば、フロー衝突を解決するマルチパストランスポートなどである。UCCL上のML集合通信は、業界ソリューションと比較して最大3.3倍高い性能を達成する。