# Datacenter Ethernet and RDMA : Issues at Hyperscale
> Hoefler et al., IEEE Computer 2023 | arXiv:2302.03337
## 概要
RoCEv2(RDMA over Converged Ethernet v2)はハイパースケールデータセンタで広く使われている一方、設計の起源が InfiniBand の単純なハードウェアを前提とする 20 年以上前の思想に由来するため、現在の環境に構造的な不整合を生じている。本論文はその欠陥を 8 項目に体系化し、次世代 Ethernet ベース高性能ネットワークへの移行を予測する。著者陣は ETH Zürich・Hewlett Packard Enterprise・Broadcom・Google・Microsoft の研究者で構成される。
## 背景 — ハイパースケールへの要求変化
データセンタとスーパーコンピュータのネットワーク要件は急速に類似している。帯域幅は 10 年で 100 倍以上、メッセージレートは 10 倍以上増大した一方、RoCE の基本的な輻輳制御・負荷分散・誤り処理の設計はその前提の下で作られている。AI/HPC/ストレージのワークロードが今後の基幹需要になることで、既存インフラの限界が顕在化しつつある。
## トラフィックモチーフの分類
論文は RoCE の問題を議論する文脈として、3 つのトラフィックパターンを定義する。
- **インキャスト(Incast)**: 複数ソースが同一宛先へ同時に送信する非協調パターン。帯域幅遅延積より小さいトランザクションサイズが特に問題になる。帯域幅増大によりより多くのワークロードがこの危険領域に入る。
- **帯域幅同期型バルク通信(Oblivious Bulk Synchronous: OBS)**: AI 学習の 3 次元並列化や MPI の集合演算が典型例。通信パターンが少数パラメータで静的に決定できるため、アルゴリズム的にインキャストを回避できる。
- **レイテンシ敏感(Latency-sensitive: LS)**: 天気予報・探索/推論などストリクトなシングルデジット・マイクロ秒レイテンシを要求するワークロード。
マルチテナンシー・機密コンピューティング・低径トポロジ採用なども配備環境の変化として挙げられる。
## RoCE の 8 つの問題点
### 1. PFC による過大なバッファ要求
Priority Flow Control(PFC)は無損失転送のためリンクごとに `BW×RTT + MTU` 以上のヘッドルームバッファを確保しなければならない。スイッチ帯域が世代ごとに 2 倍増大するにつれてこのヘッドルームも拡大し、スイッチ規模拡大の大きな障壁になる。図 1 の試算では、800G ポート・3 段ファットツリー・9 kB フレームで、データセンタ内(< 150m)でもスイッチあたりヘッドルームが急増する。長距離(リージョン間 400 km)では per-port で GB オーダーに達する。
### 2. 被害フロー・輻輳ツリー・PFC ストーム・デッドロック
PFC は 3 ビットのトラフィッククラス単位で全フローを一律停止するため、輻輳と無関係なフローまで止まる「ヘッドオブラインブロッキング」が生じる。下流の輻輳がさらに上流バッファを埋め「輻輳ツリー」が逆方向に成長する。トラフィッククラスという希少資源が lossless 用に占有されるため、差別化サービス(エレファントフロー・低レイテンシ映像会議など)に割り当てられるクラスが減る。デッドロックはルーティングにサイクルがある場合に発生し、リンク障害後の一時的状態でも生じうる。
### 3. Go-back-N 再送
RoCE は InfiniBand の lossless・in-order を前提とした Go-back-N 再送を使う。1 パケットが失われるとフル `BW×RTT` 相当のデータを再送する。パケットレベルの適応的ルーティングやアウトオブオーダー配送と本質的に非互換であるため、マルチパスを実質的に禁じる。最新 NIC は選択的再送をサポートするが制限がある(例: NVIDIA ConnectX-6 は選択的再送とアダプティブルーティングを同時有効にできない)。
### 4. 輻輳制御と他トラフィックとの共存
デフォルトの ECN ベース速度制御(DCQCN/TIMELY/HPCC など非標準的拡張)は単純で、lossless 輻輳制御との密結合を前提とする。ベンダー間・同一ベンダーの世代間でも相互運用性がない。OBS ワークロードでは通信パターンを事前学習・静的設定できるが、現在の RoCE はそれを活かす仕組みがない。スイッチが深いバッファを持つデータセンタで lossless を動かすと、高価なバッファが事実上無駄になるという逆説も生じる。
### 5. ヘッダサイズ・パケットレート・スケーラビリティ
RoCEv2 のヘッダは L2(22 B)+IP(20 B)+UDP(8 B)+BTH(12 B)+ICRC(4 B)=計 66 B であり、InfiniBand ローカルルーティング(20 B)と比較して大きい。8 B メッセージの場合、パケットのほぼ 90% がヘッダになる。最大レート試算では IB が 3.5 Gpps、RoCEv2 が 1.4 Gpps(ヘッダなし 12.5 Gpps と比較)。キューペア(QP)ベースの接続モデルは大規模 all-to-all 接続ではコンテキストサイズの観点でスケールに課題がある。
### 6. スマートスタックのサポート不足
QUIC のようにアプリがトランスポート処理を定義できる現代的なスタックと異なり、RoCE はハードウェアアクセラレーションを前提とするためプロトコルの柔軟な定義を許さない。Smart NIC の拡張性やアプリ固有のプロトコルへの適応が難しい。
### 7. セキュリティ
RoCE は設計時にセキュリティ・認証・暗号化への考慮が薄かった。マルチテナント環境では IPSEC をキューペアごとに有効化する必要があるが、接続コンテキストのオーバーヘッドが大きい。メモリリージョンのサブ委譲をサポートしない問題もある。仮想アドレスのリモート公開はプロセスレイアウト漏洩リスクを持ち、固定オフセット方式は推測しやすい。
### 8. リンクレベル信頼性
50G レーンから PAM4 変調へ移行することで BER が 1e-4 に達しうる。RS544 FEC はこれを 1e-12 に補正するが、フレームサイズ分(5,140 ビット)の蓄積レイテンシが必要で、800G リンクで 30〜80 ns 以上を占める。より高速なレーンほど FEC の計算コストは相対的に減るが BER は上昇し、将来は RS544 より複雑な FEC が必要になる可能性がある。PCIe 6.0 は BER 1e-4 に対し小さい FEC ブロック(242 B)と CRC 再送で ~5 ns のレイテンシを実現しており、Ethernet へのヒントとなる設計だが、長距離リンクへの対応が課題である。
### システムレベルの問題
レイテンシ上昇がエンドツーエンドの輻輳制御を難しくし、インキャストが問題になるメッセージサイズの閾値を引き上げる(AWS・GCP・Azure・HPC の比較では 1 MiB が「小さい」ケースも生じる)。メモリセマンティクスの複雑性やルーティング・負荷分散も未解決課題として残る。
## 予測
次世代 Ethernet は 10 年以内に TCP と RoCE を置き換えると予測する。具体的には以下の設計変更が見込まれる:
1. RDMA 接続に対して lossy・lossless 両モードをサポートし、ヘッドルームバッファの強制確保を任意にする
2. Go-back-N を廃止して選択的確認応答など細粒度の機構を採用する
3. 輻輳管理を仕様に組み込む
4. スマートスタックへの対応と設計上の柔軟性
5. セキュリティをファーストクラスの要件として位置づける
6. ヘッダとリンクレベル信頼性の革新
HPC とデータセンタ市場は収束し、単一の高性能ネットワーキングエコシステムへと移行する。
## 主要な引用論文
- HPCC \[4\]: Li et al., SIGCOMM 2019 — 高精度輻輳制御
- DCQCN \[5\]: Zhu et al., SIGCOMM 2015 — RoCE 向け大規模 RDMA 輻輳制御
- TIMELY \[6\]: Mittal et al., SIGCOMM 2015 — RTT ベース輻輳制御
- HammingMesh \[2\]: Hoefler et al., SC 2022 — 大規模深層学習トポロジ
- Slingshot \[3\]: De Sensi et al., SC 2020 — HPE Slingshot の詳細解析
## 著者・所属
| 著者 | 所属 |
|---|---|
| [[Torsten Hoefler]] | [[ETH Zürich]] / Microsoft |
| Duncan Roweth, Keith Underwood, Bob Alverson | [[Hewlett Packard Enterprise]](HPE、Slingshot チーム) |
| Mark Griswold, Vahid Tabatabaee, Mohan Kalkunte, Surendra Anubolu | [[Broadcom]](スイッチ部門) |
| Siyuan Shen | [[ETH Zürich]] |
| Moray McLaren | [[Google]] |
| Abdul Kabbani, Steve Scott | [[Microsoft]] |
## 出典
- [[@2023__IEEE Computer__Datacenter Ethernet and RDMA - Issues at Hyperscale]] (本ページ)
- `.raw/papers/arxiv-2302.03337.pdf`