## Memo
## Memo with LLM
### 論文情報
- **論文タイトル**: An Extensible Software Transport Layer for GPU Networking
- **著者と所属**:
- Yang Zhou(UC Berkeley & UC Davis)- ファーストオーサー
- Zhongjie Chen(Tsinghua University)
- その他12名の共著者(UC Berkeley, UC Davis, Harvard University, IBM Research, Amazon Web Services, University Polytehnica of Bucharest & Broadcom)
- **カンファレンス/ジャーナル名**: arXiv preprint (arXiv:2504.17307)
- **発表年**: 2025年(4月投稿)
### 論文概要
本論文では、機械学習ワークロード向けのGPUネットワーキングを進化させるため、UCCL(Ultra-CCL)という拡張可能なソフトウェアトランスポート層を提案している。UCCLは既存の[[RDMA]] NICのデータパスと制御パスを分離し、制御パストランスポートをホストCPU上で効率的に実行することで、ハードウェアでは実現困難なトランスポート革新を可能にする。
### 詳細解説
#### 問題設定
**入力**: 大規模機械学習ワークロードにおけるGPU間通信(AllReduce、AllGather、All-to-All等の[[集合通信]])
**出力**: 高性能かつ拡張可能なGPUネットワーク通信
**必要なデータ**: RDMA対応NIC、GPU間の大容量データ転送(数GB〜数TB)
現在のRDMA NIC上のホストネットワークトランスポートは進化しにくく、以下の問題を抱えている:
- シングルパスRDMAトラフィックによるフロー衝突
- ハードウェアベースの輻輳制御アルゴリズム([[DCQCN]])の機械学習ワークロードへの不適合性
- ベンダー固有の制御パス論理による性能低下
- 効率的な損失回復メカニズムの欠如
#### 提案手法
UCCLは以下の技術的アプローチを採用している:
**1. 制御パスとデータパスの分離**
- RDMA Unreliable Connection(UC)を活用してハードウェアベースの輻輳制御と信頼性論理をバイパス
- RDMA immediate dataを使用して送信者と受信者CPU間でトランスポート制御状態を伝達
- UC未対応NICに対してはRDMA Unreliable Datagram(UD)のscatter-gather機能を利用
**2. 効率的なマルチパス活用**
- UC/RC用に256個のQP(Queue Pair)を使用したマルチパス実装
- パケットスプレーイング技術により複数ネットワークパスを活用
- Power-of-Two samplingによる最低RTTパス選択
**3. ソフトウェア最適化技術**
- コントロールコアレッシング(32KBチャンクサイズでの制御決定)
- コネクション分割による複数CPUコアでの負荷分散
- [[GPUDirect]]によるCPUオーバーヘッド軽減
**具体的実装例**:
```
制御ヘッダー(32ビット)の割り当て:
- コネクションID: 8ビット(256接続)
- メッセージID: 7ビット(128インフライトメッセージ)
- チャンクシーケンス番号: 8ビット
- 最終チャンク標識: 1ビット
- 拡張制御用予約: 8ビット
```
#### 新規性
先行研究との比較における主な新規性:
1. **既存ハードウェアの活用**: ZeroNICとは異なり、既存のRDMA NICハードウェアを改造せずに制御パスとデータパスを分離
2. **スケーラビリティ**: Florと比較してより高帯域幅(3.2+ Tbps)のMLアプリケーションに対応
3. **マルチパス対応**: AWS EFAのSRDと比較して、より多くのパス(256パス)を効率的に活用
4. **拡張性**: [[SmartNIC]](Google Falcon、AMD Pensando)の制約を受けない完全なソフトウェア実装
#### 実験設定
**使用データセット**:
- **CXテストベッド**: 2台のサーバー、[[InfiniBand]]、NVIDIA ConnectX-7 400G NIC、[[H100][]()] GPU
- **EFAテストベッド**: 4台のAWS p4d.24xlargeインスタンス、AWS EFA 100G NIC、[[A100]] GPU
**評価指標**:
- 集合通信レイテンシとスループット(NCCL-testsを使用)
- 実アプリケーション性能([[ResNet]]分散学習、DeepSeek-V3風MoEサービング)
- QP数に対するスケーラビリティ(最大60K QP)
#### 実験結果
**集合通信性能**:
- CXテストベッド: ConnectX-7とほぼ同等の性能(AllReduce、All-to-All)
- EFAテストベッド: AWS SRDに対して最大3.3倍の性能向上
**実アプリケーション性能**:
- ResNet分散学習: 1.07-1.11倍の学習時間短縮
- DeepSeek-V3風MoE: プリフィル1.13倍、デコーディング1.42倍の高速化
**拡張性機能の効果**:
- 受信側駆動輻輳制御(EQDS): ネットワークインキャスト下でP99/P99.9レイテンシを最大4.9倍改善
- 選択的再送: 0.01%パケットロス下で77%性能低下(従来)に対し3-23%の性能低下に抑制
**CPU効率性**: 1CPUコアで400Gbps単方向トラフィックを処理可能
論文では、UCCLがハードウェアレベルの性能を維持しながら、従来のハードウェア制約を超えた拡張性を提供することを実証している。特に、パケットスプレーイングによるマルチパス活用と、ソフトウェアベースの柔軟な制御により、次世代MLワークロードの要求に対応可能な解決策を提示している。
## Abstract
高速進化する機械学習(ML)ワークロードは、ネットワーキングに対する要求が増大している。しかし、RDMA NIC上のホストネットワークトランスポートは進化が困難であり、MLワークロードに問題を引き起こしている。例えば、シングルパスRDMAトラフィックはフロー衝突を起こしやすく、集合通信性能を大幅に低下させる。我々は、GPUネットワーキングを進化させる拡張可能なソフトウェアトランスポート層であるUCCLを提案する。UCCLは既存のRDMA NICのデータパスと制御パスを分離し、制御パストランスポートをホストCPU上で効率的に実行する。このソフトウェア拡張性により、MLワークロードに対してハードウェアでは達成できないトランスポート革新がもたらされる。例えば、フロー衝突を解決するマルチパストランスポートなどである。UCCL上のML集合通信は、業界ソリューションと比較して最大3.3倍高い性能を達成する。