@2025__arXiv__Ultra Ethernet's Design Principles and Architectural Innovations

> [!abstract] 概要(arXiv abstract の日本語訳) > 最近公開された Ultra Ethernet(UE) 1.0 仕様は、将来の人工知能(AI)および高性能計算(HPC)システム向けの変革的な高性能 Ethernet 標準を定義する。仕様書の著者らが執筆した本論文は、UE の設計を高レベルで概説し、その革新を理解するための動機と科学的背景を提供する。UE は Ethernet スタック全体にわたる進歩をもたらすが、最大の貢献は新しい Ultra Ethernet トランスポート(UET)であり、極規模なシステムにおける信頼性の高い、高速かつ効率的な通信のために設計された、完全ハードウェアアクセラレーション可能なプロトコルである。20 年以上前に行われた最後の主要標準化作業である InfiniBand とは異なり、UE は広大な Ethernet エコシステムと、移動されるビットあたりの計算効率が 1,000 倍向上したという利点を活用し、高性能ネットワーキングの新時代を届ける。 ## 論文情報 - **タイトル**: Ultra Ethernet's Design Principles and Architectural Innovations - **著者**: Torsten Hoefler(ETH Zürich & Microsoft)、Karen Schramm・Eric Spada・Cedell Alexander・Costin Raiciu・Eugene Opsasnick(Broadcom)、Keith Underwood・Bob Alverson・Paul Bottorff(HPE)、Adrian Caulfield・Mark Handley(OpenAI)、Cathy Huang(Intel)、Abdul Kabbani(Microsoft)、Rong Pan・Rip Sohan(AMD)、Adee Ran(Cisco) - **媒体**: arXiv プレプリント(arXiv:2508.08906 [cs.NI]) - **発表年月**: 2025 年 8 月 12 日 - **arXiv**: https://arxiv.org/abs/2508.08906 - **仕様書**: Ultra Ethernet Consortium (2025). Ultra Ethernet Specification Version 1.0. https://ultraethernet.org/uec-1-0-spec (562 ページ) ## 概要 Ultra Ethernet Consortium(UEC)が 30 か月の設計を経て公開した UE 1.0 仕様の技術解説論文。仕様書の著者が歴史的経緯・設計動機・技術革新を一般向けに説明する。InfiniBand/RoCEv2 の設計限界を出発点に、コネクションレス・パケットスプレー・完全ハードウェアオフロードを軸とする Ultra Ethernet トランスポート(UET)の 4 サブレイヤ構造を詳述する。 **Figure 1: ハイパフォーマンスデータセンターのネットワーク種別** ![[_attachments/arxiv-2508.08906/fig01-network-types.png]] (Figure 1. ローカルネットワーク(紫・<10m)・バックエンドネットワーク(青・150m・<10µs)・フロントエンドネットワーク(緑・1500m)の 3 層。UE 1.0 は主にバックエンドネットワークを対象とする。Source: Hoefler et al., arXiv:2508.08906) ## 問題設定 - **入力**: AI/HPC 向けの大規模クラスタ通信ワークロード。400Gbps 以上の帯域、10〜150m のリンク、大きなメッセージ・パケットを前提とする - **前提の問題**: RoCEv2 は(a)PFC による無損失転送必須(ヘッドルームバッファ膨張・輻輳ツリー)、(b)Go-back-N 再送(パケット 1 つの損失で帯域幅遅延積を再送)、(c)経路固定(パケットスプレー不可)の 3 つの設計限界を持つ。InfiniBand は 25 年前に「帯域は高価、計算は安価」という前提で設計されたが、2025 年時点でトランジスタあたりの計算コストは 100,000 分の 1 以下、帯域は 100 倍しか伸びていない(計算対帯域比が 1,000 倍改善) - **要求**: スイッチ側への変更を最小限(ECMPと出力側 ECN マーキングのみ必須)に抑えつつ、既存 Ethernet インフラに展開できる次世代高性能トランスポート ## 提案手法 ### アーキテクチャ全体 UET は 4 つのサブレイヤから構成される。TCP/IP の標準レイヤリングに沿った構造を持つ。 **Figure 3: Ultra Ethernet の全体レイヤアーキテクチャ** ![[_attachments/arxiv-2508.08906/fig03-layered-architecture.png]] (Figure 3. アプリケーション層(CCL/MPI)→libfabric→トランスポート層(SES/PDS/CMS/TSS)→ネットワーク層(IP)→データリンク層(MAC + 任意の LLR/CBFC)→物理層(100G/200G/レーン)。Source: Hoefler et al., arXiv:2508.08906) **4 つのサブレイヤ:** 1. **Semantics Sublayer(SES)**: UE アドレス指定・Send/Recv・Deferrable Send・RMA 読み書き。libfabric インターフェースに直結し、コネクション概念なしに JobID+PIDonFEP+Resource Index でアドレスを解決する 2. **Packet Delivery Sublayer(PDS)**: エフェメラルな Packet Delivery Context(PDC)を管理。ゼロ RTT での PDC 確立が可能。4 つのパケット配送モード(RUD/ROD/UUD/RUDI)を提供 3. **Congestion Management Sublayer(CMS)**: ECN と RTT に基づく NSCC、受信側クレジット割り当て RCCC の 2 アルゴリズム。スイッチ側は ECMP+ECN 出力マーキングのみ必須 4. **Transport Security Sublayer(TSS)**: AES-GCM-256 による AEAD。ゼロトラストモデルでエンドツーエンド認証・暗号化 ### ECMP パケットスプレー UE はパケットごとに異なるエントロピー値(EV)を設定することで ECMP の全パスを活用する。EV は UDP 送信元ポート(または IP-only モードでは 4B エントロピーヘッダ)に格納される。同じ EV のパケットは同一パスを通り、異なる EV は(ハッシュ関数の性質上)確率的に異なるパスを通る。トラフィック偏極を防ぎ、長期平均で帯域を均等分配する。 ### 4 つのパケット配送モード | モード | 略称 | 順序保証 | 信頼性 | 用途 | |--------|------|---------|--------|------| | Reliable Unordered Delivery | RUD | なし | あり | デフォルト大容量転送(AI プロファイル) | | Reliable Ordered Delivery | ROD | あり | あり | MPI ワイルドカードマッチング(HPC プロファイル) | | Unreliable Unordered Delivery | UUD | なし | なし | ソフトウェアプロトコル・システム管理 | | Reliable Unordered Delivery for Idempotent | RUDI | なし | あり(冪等限定) | 受信側状態なしの極小実装 | RUD がデフォルト・最高効率。パケットスプレーと完全互換(アウトオブオーダー到着を受信側がビットマップで追跡)。 ### ゼロ RTT 接続確立(PDC 動的生成) PDC は最初のパケット到着時に生成する。接続確立の往復を待たずに最初のパケットから全速転送を開始できる。初期パケットに SYN フラグを付け、最初の ACK で対向 PDCID が返ってくれば確立完了。 ### 大きなメッセージの送受信プロトコル 3 つのプロファイルで異なるプロトコルを採用する: - **HPC(Rendezvous)**: eager send + RMA read の 2 ステップ。期待値・非期待値ともに `ts + α + βs` で完了(ウィンドウが一定の場合) - **AI Full(Deferrable Send)**: 大きな非期待メッセージが届いたら即座に送信延期を要求、受信バッファが用意されたら再開信号を送る。RMA read 不要でハードウェアオフロード実装が容易 - **AI Base(Receiver Initiated)**: 受信側が準備完了してから送信を開始。RTT+2α の追加レイテンシが発生するが最小実装 ### 輻輳制御: NSCC と RCCC **NSCC**(Network Signal-based CC): ECN の 1 ビット信号(高速・統計的)と RTT の多ビット信号(低速・精密)を組み合わせ 4 ケースで窓サイズを調整。Quick Adapt(QA)アルゴリズムで損失信号から素早くボトルネックを推定。 **RCCC**(Receiver Credit-based CC): 受信側が全入力フローを把握してクレジットを割り当てる。インキャスト(多対 1)で最適だがアウトキャスト(1 対多)や網内輻輳には弱い。NSCC との併用を推奨。 **Figure 7: 輻輳シナリオの比較** ![[_attachments/arxiv-2508.08906/fig07-congestion-examples.png]] (Figure 7. 2:1 過負荷 fat tree での 3 シナリオ。(1)アウトキャスト(NSCC 優位)、(2)(3)12 フロー/4 アップリンクの網内輻輳、(4)インキャスト j,k,l,m→I(RCCC 優位、25/25%で最適)。Source: Hoefler et al., arXiv:2508.08906) ### アドレス指定 **Figure 4: アドレス指定スキーム** ![[_attachments/arxiv-2508.08906/fig04-addressing-scheme.png]] (Figure 4. 相対アドレス(並列ジョブ向け): FA+JobID+PIDonFEP+RI の 4 フィールドでソース側の状態を O(N) に削減。絶対アドレス(クライアント/サーバー向け): JobID 不使用で PIDonFEP を UDP ポート相当に使用。Source: Hoefler et al., arXiv:2508.08906) FA(Fabric Address)+JobID(24b)+PIDonFEP(12b)+Resource Index(12b)の 4 フィールドで MPI プロセスや RMA バッファを一意に特定する。従来の InfiniBand Verbs がキューペアごとに受信キューを割り当てる「接続ベース」設計と異なり、UE はキューペアなしで任意のプロセスがキューに送信できる「コネクションレス」設計。共有受信キューの概念が不要になる。 ### セキュリティ(TSS) Secure Domain(SD)という概念を導入。SD 内の全 FEP が対称な SDK(Secure Domain Key)を共有し、KDF で送信元ごとのキーを派生させる。AES-GCM-256 + 16B ICV で PDS・SES ヘッダとペイロードを認証・暗号化。IV は TSC(16b epoch + 48b パケットカウンタ)とマスクの XOR で構成し、固定ノンス攻撃を防止。 ### リンク層機能 - **LLR**(Link Level Retry): リンク単位の誤り回復。~1µs の RTT 内で go-back-N 再送。PAM4 の FEC 残余エラーに対応。物理層 PCS の 8B Control Ordered Set で ACK/NACK を送信 - **CBFC**(Credit-Based Flow Control): PFC の代替。20b サイクリックカウンタで仮想チャネル単位にクレジットを管理。PFC に比べてヘッドルームバッファを削減でき、設定が簡易 ### プロファイル | プロファイル | 対象 | 特徴 | |------------|------|------| | HPC | MPI・OpenSHMEM | ワイルドカードタグマッチング・Rendezvous・RUDI を含む最上位 | | AI Full | CCL(NCCL 等) | Deferrable Send・タグマッチング(厳密一致)。HPC のスーパーセット | | AI Base | CCL(最小実装) | 単一パケット送信+RMA write のみ。マッチングはソフトウェア側で実装 | ## 新規性 | 旧 RoCEv2 | Ultra Ethernet(UET) | |-----------|---------------------| | PFC 無損失必須 | 有損失(ベストエフォート)ネットワークでも動作 | | Go-back-N 再送 | 選択的確認応答(SACK ビットマップ) | | 経路固定(フロー単位 ECMP) | パケット単位スプレー(EV 変更) | | コネクション確立に RTT 追加 | ゼロ RTT PDC 確立 | | アウトオブオーダー非対応 | RUD/RUDI でアウトオブオーダー完全対応 | | セキュリティは後付け | TSS でゼロトラスト標準組み込み | | キューペア=接続の概念 | JobID+PIDonFEP+RI でコネクションレス | InfiniBand との根本的な違いは「25 年前の計算コスト前提」からの脱却。トランジスタあたりの計算が 100,000 分の 1 になった現代では、パケットスプレー・選択的確認応答・ゼロ RTT などの「計算コストのかかる」メカニズムがシリコンで合理的に実装できる。 ## 実験設定本論文は仕様解説論文であり、定量評価実験を含まない。CMS チームによる初期版の文書化と解析は SMaRTT 論文 [6](arXiv:2404.01630)、REPS ロードバランシングは arXiv:2407.21625 として別途発表済み。輻輳制御のシミュレーション検証はベストエフォートネットワークを前提として実施済みと記述されるが、本論文では数値を示さない。 ## 考察 ### 強み - **Ethernet エコシステムとの完全互換**: 物理層・MAC を変更せず、スイッチには ECMP+ECN のみ要求するため、既存 Ethernet データセンターに段階的に展開できる - **ベンダー差別化の余地を意図的に残す**: ロードバランシングアルゴリズム・損失検出方式など多くの箇所で複数の選択肢を「オプション」として仕様化。ベンダーが独自に改善できる設計 - **HPC と AI の共通基盤**: HPC プロファイル(MPI/OpenSHMEM)と AI プロファイル(CCL)を単一仕様でカバーし、将来的なフロントエンドネットワーク統合も視野に入れる ### 弱点・課題 - **ロードバランシングの最善策は未解決**: 仕様は複数の LB スキーム(REPS、ビットマップ方式など)を提案するが最善策は「研究課題」と明記 - **RCCC とアウトキャスト**: RCCC は受信側視点のみで管理するためアウトキャストシナリオで帯域を取り残す場合がある。NSCC の併用が推奨されるが、両者の相互作用は複雑 - **第 1 版の仕様エラーを想定**: 著者自身が「複数ラウンドのエラータ修正を要すると考えて驚かない」と明言。100 以上の加盟企業・1,500 以上の参加者を持つコンソーシアム仕様の宿命的な課題 ## 関連 - 概念: [[RDMA]] / [[RoCE設計課題]] / [[Ultra Ethernet]] / [[オープンネットワーキング]] / [[集合通信]] / [[HPCインターコネクトベンチマーク]] - エンティティ: [[Torsten Hoefler]] / [[Broadcom]] / [[Hewlett Packard Enterprise]] / [[OpenAI]] / [[Intel Corporation]] / [[Microsoft]] / [[AMD]] - 関連ソース: [[@2023__IEEE Computer__Datacenter Ethernet and RDMA - Issues at Hyperscale]] / [[@2026__SONiC Workshop Japan 2026__SONiC Scale-Up Working Group から探る Scale-Up や Ultra Ethernet 機能の実装方法]] / [[@2016__SIGCOMM__RDMA over Commodity Ethernet at Scale]] ## 出典 - Hoefler et al. (2025). Ultra Ethernet's Design Principles and Architectural Innovations. arXiv:2508.08906. - Ultra Ethernet Consortium (2025). Ultra Ethernet Specification Version 1.0. https://ultraethernet.org/uec-1-0-spec