## Memo ## Memo with LLM ### 論文情報 - **論文タイトル**: An Extensible Software Transport Layer for GPU Networking - **著者と所属**: - Yang Zhou(UC Berkeley & UC Davis)- ファーストオーサー - Zhongjie Chen(Tsinghua University) - その他12名の共著者(UC Berkeley, UC Davis, Harvard University, IBM Research, Amazon Web Services, University Polytehnica of Bucharest & Broadcom) - **カンファレンス/ジャーナル名**: arXiv preprint (arXiv:2504.17307) - **発表年**: 2025年(4月投稿) ### 論文概要 本論文では、機械学習ワークロード向けのGPUネットワーキングを進化させるため、UCCL(Ultra-CCL)という拡張可能なソフトウェアトランスポート層を提案している。UCCLは既存の[[RDMA]] NICのデータパスと制御パスを分離し、制御パストランスポートをホストCPU上で効率的に実行することで、ハードウェアでは実現困難なトランスポート革新を可能にする。 ### 詳細解説 #### 問題設定 **入力**: 大規模機械学習ワークロードにおけるGPU間通信(AllReduce、AllGather、All-to-All等の[[集合通信]]) **出力**: 高性能かつ拡張可能なGPUネットワーク通信 **必要なデータ**: RDMA対応NIC、GPU間の大容量データ転送(数GB〜数TB) 現在のRDMA NIC上のホストネットワークトランスポートは進化しにくく、以下の問題を抱えている: - シングルパスRDMAトラフィックによるフロー衝突 - ハードウェアベースの輻輳制御アルゴリズム([[DCQCN]])の機械学習ワークロードへの不適合性 - ベンダー固有の制御パス論理による性能低下 - 効率的な損失回復メカニズムの欠如 #### 提案手法 UCCLは以下の技術的アプローチを採用している: **1. 制御パスとデータパスの分離** - RDMA Unreliable Connection(UC)を活用してハードウェアベースの輻輳制御と信頼性論理をバイパス - RDMA immediate dataを使用して送信者と受信者CPU間でトランスポート制御状態を伝達 - UC未対応NICに対してはRDMA Unreliable Datagram(UD)のscatter-gather機能を利用 **2. 効率的なマルチパス活用** - UC/RC用に256個のQP(Queue Pair)を使用したマルチパス実装 - パケットスプレーイング技術により複数ネットワークパスを活用 - Power-of-Two samplingによる最低RTTパス選択 **3. ソフトウェア最適化技術** - コントロールコアレッシング(32KBチャンクサイズでの制御決定) - コネクション分割による複数CPUコアでの負荷分散 - [[GPUDirect]]によるCPUオーバーヘッド軽減 **具体的実装例**: ``` 制御ヘッダー(32ビット)の割り当て: - コネクションID: 8ビット(256接続) - メッセージID: 7ビット(128インフライトメッセージ) - チャンクシーケンス番号: 8ビット - 最終チャンク標識: 1ビット - 拡張制御用予約: 8ビット ``` #### 新規性 先行研究との比較における主な新規性: 1. **既存ハードウェアの活用**: ZeroNICとは異なり、既存のRDMA NICハードウェアを改造せずに制御パスとデータパスを分離 2. **スケーラビリティ**: Florと比較してより高帯域幅(3.2+ Tbps)のMLアプリケーションに対応 3. **マルチパス対応**: AWS EFAのSRDと比較して、より多くのパス(256パス)を効率的に活用 4. **拡張性**: [[SmartNIC]](Google Falcon、AMD Pensando)の制約を受けない完全なソフトウェア実装 #### 実験設定 **使用データセット**: - **CXテストベッド**: 2台のサーバー、[[InfiniBand]]、NVIDIA ConnectX-7 400G NIC、[[H100][]()] GPU - **EFAテストベッド**: 4台のAWS p4d.24xlargeインスタンス、AWS EFA 100G NIC、[[A100]] GPU **評価指標**: - 集合通信レイテンシとスループット(NCCL-testsを使用) - 実アプリケーション性能([[ResNet]]分散学習、DeepSeek-V3風MoEサービング) - QP数に対するスケーラビリティ(最大60K QP) #### 実験結果 **集合通信性能**: - CXテストベッド: ConnectX-7とほぼ同等の性能(AllReduce、All-to-All) - EFAテストベッド: AWS SRDに対して最大3.3倍の性能向上 **実アプリケーション性能**: - ResNet分散学習: 1.07-1.11倍の学習時間短縮 - DeepSeek-V3風MoE: プリフィル1.13倍、デコーディング1.42倍の高速化 **拡張性機能の効果**: - 受信側駆動輻輳制御(EQDS): ネットワークインキャスト下でP99/P99.9レイテンシを最大4.9倍改善 - 選択的再送: 0.01%パケットロス下で77%性能低下(従来)に対し3-23%の性能低下に抑制 **CPU効率性**: 1CPUコアで400Gbps単方向トラフィックを処理可能 論文では、UCCLがハードウェアレベルの性能を維持しながら、従来のハードウェア制約を超えた拡張性を提供することを実証している。特に、パケットスプレーイングによるマルチパス活用と、ソフトウェアベースの柔軟な制御により、次世代MLワークロードの要求に対応可能な解決策を提示している。 ## Abstract 高速進化する機械学習(ML)ワークロードは、ネットワーキングに対する要求が増大している。しかし、RDMA NIC上のホストネットワークトランスポートは進化が困難であり、MLワークロードに問題を引き起こしている。例えば、シングルパスRDMAトラフィックはフロー衝突を起こしやすく、集合通信性能を大幅に低下させる。我々は、GPUネットワーキングを進化させる拡張可能なソフトウェアトランスポート層であるUCCLを提案する。UCCLは既存のRDMA NICのデータパスと制御パスを分離し、制御パストランスポートをホストCPU上で効率的に実行する。このソフトウェア拡張性により、MLワークロードに対してハードウェアでは達成できないトランスポート革新がもたらされる。例えば、フロー衝突を解決するマルチパストランスポートなどである。UCCL上のML集合通信は、業界ソリューションと比較して最大3.3倍高い性能を達成する。