# RoCE設計課題 ## 定義 RoCE(RDMA over Converged Ethernet)の設計課題とは、InfiniBand 由来のプロトコル設計がハイパースケールデータセンタの実運用環境で引き起こす構造的な非効率・不整合の総体である。[[@2023__IEEE Computer__Datacenter Ethernet and RDMA - Issues at Hyperscale]] は 8 項目に体系化した。RoCE は 2000 年代〜2010 年代初期の単純 HPC 向けハードウェアを前提として設計されており、帯域が 100 倍、メッセージレートが 10 倍以上拡大した現在の環境に適合しなくなっている。 ## 8 つの設計問題(Hoefler+ IEEE Computer 2023 より) 1. **PFC の過大なヘッドルームバッファ要求** — 無損失転送のためスイッチに `BW×RTT + MTU` 以上のバッファを専有させる。スイッチ帯域が 2 年ごとに 2 倍(Tomahawk 系列)になるとヘッドルームも比例拡大し、転送用バッファが圧迫される。 2. **被害フロー・輻輳ツリー・PFC ストーム・デッドロック** — PFC は 3 ビットのトラフィッククラス単位で停止するためヘッドオブラインブロッキングを生じ、輻輳が上流へ伝播する「輻輳ツリー」を形成する。 3. **Go-back-N 再送** — パケット 1 つの喪失で `BW×RTT` 全量を再送し、マルチパスやアウトオブオーダー配送と本質的に非互換。 4. **輻輳制御と他トラフィックとの共存の困難さ** — ECN ベースの速度制御は lossless 前提と密結合でベンダー間互換性がなく、OBS ワークロードの静的通信パターンを活かせない。 5. **大きなヘッダとスケーラビリティ課題** — RoCEv2 の 66 B ヘッダは 8 B メッセージ時に 90% 近くをヘッダが占め、キューペアベースの接続状態も大規模展開でスケールに課題を持つ。 6. **スマートスタックのサポート不足** — ハードウェアアクセラレーション前提でプロトコル定義の柔軟性がなく、Smart NIC の拡張性や QUIC のようなアプリ定義プロトコルに対応できない。 7. **セキュリティの設計上の弱さ** — マルチテナント環境での認証・暗号化が後付けになり、メモリリージョンの仮想アドレス公開によるプロセスレイアウト漏洩リスクがある。 8. **リンクレベル信頼性の複雑化** — PAM4 エンコードで BER が 1e-4 に達しうる中で RS544 FEC は帯域増大にも一定のレイテンシコストを持ち、将来の 100G/200G レーンでは不十分になる可能性がある。 ## 横断的知見 - **RoCE の 3 大問題(フロー衝突・インキャスト・障害収束)は上位レイヤで吸収する方向へ分岐している**: Hoefler+ 2023 はプロトコル自体の再設計を処方箋として示す一方、[[@2026__LinkedIn__Resilient AI Supercomputer Networking - How MRC and SRv6 Keep 100,000+ GPUs Training]] の [[MRC]] は RC トランスポートをパケットスプレー型に拡張しアプリ層で吸収する。「プロトコルの下を変える」(次世代 Ethernet)vs「プロトコルの上で吸収する」(MRC/SRv6)の二方向が並走している。(Source: [[@2023__IEEE Computer__Datacenter Ethernet and RDMA - Issues at Hyperscale]], [[@2026__LinkedIn__Resilient AI Supercomputer Networking - How MRC and SRv6 Keep 100,000+ GPUs Training]]) - **PFC 問題は診断の難しさとしても現れる**: Hoefler+ 2023 が設計欠陥として挙げる PFC の輻輳ツリーとストームは、[[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]] が「P4 データプレーンで PFC 因果来歴を追跡しなければリアルタイムに診断できない」という形で観測困難性として再確認している。設計欠陥が診断の複雑性を直接引き起こしている。(Source: [[@2023__IEEE Computer__Datacenter Ethernet and RDMA - Issues at Hyperscale]], [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]]) - **ヘッダサイズ問題は AI 学習の集合通信での fine-grained な通信にとって特に深刻**: 問題 5 で論じられる 8 B メッセージ時の 90% ヘッダオーバーヘッドは、[[集合通信]] における単一要素削減(allreduce の最小メッセージ)や細粒度グラフ更新で顕現する。これは [[集合通信]] ページで議論する帯域対レイテンシのトレードオフの根本にある。(Source: [[@2023__IEEE Computer__Datacenter Ethernet and RDMA - Issues at Hyperscale]]) ## 未解決の問い - 次世代 Ethernet が「lossy/lossless 選択可能」になった場合、現在の DCQCN/TIMELY/HPCC のような輻輳制御は何が変わるか。PFC なしの RDMA 輻輳制御はどのような設計になるか。 - RoCE の設計限界はスーパーコンピュータ向け InfiniBand / HPE Slingshot との競争でどう位置づけられるか。Slingshot のチームが本論文を共著しているのは、Ethernet 側の改革を求める訴求か。 - セキュリティ(問題 7)は、機密コンピューティング(Confidential Computing)が普及した場合にどう変わるか。RDMA + TEE の組み合わせは実現可能か。 - FEC の選択(RS544 vs LL-FEC vs Firecode)はレイテンシとエラー訂正能力のトレードオフを生じる。400G/800G 超での最適解はあるか。 ## 関連 - 概念: [[RDMA]] / [[RDMAネットワーク監視]] / [[オープンネットワーキング]] / [[集合通信]] - エンティティ: [[Torsten Hoefler]] / [[ETH Zürich]] / [[Hewlett Packard Enterprise]] / [[Broadcom]] / [[Microsoft]] / [[Google]] - ソース: [[@2023__IEEE Computer__Datacenter Ethernet and RDMA - Issues at Hyperscale]] ## 出典 - [[@2023__IEEE Computer__Datacenter Ethernet and RDMA - Issues at Hyperscale]] — 8 項目の課題分類と次世代 Ethernet 予測の主出典