海老澤 健太郎(Arrcus, Inc.)
上野 裕一郎 (Preferred Networks, Inc.)
/|15:45|16:30
2024.11.122024.12.14
- [[JANOG55 UECセッション: AIインフラ解説資料 共有ページ]]
### 概要
UEC(Ultra Ethernet Consortium)は、高性能AIおよびHPCネットワーキングのためにイーサネットを最適化する新しいアーキテクチャや技術スタックの業界標準を議論・開発する団体です。
2023年7月にLinux Foundationによりアナウンス\[1\]されて以来、会員企業が増え続け、2024年8月にはNVIDIAも参加するなど、現在では主要なネットワーク技術ベンダの多くが会員となっています。反面、議論内容や策定中の技術仕様は会員のみがアクセス可能となっており、「自社のユースケースで利用可能なのか?」「自社(自分)でも取り組むべき技術なのか?」会員企業以外にはわかりにくい状況です。
また、トランスポートプロトコル、In Network Collectives(Computing)、Linkレイヤの拡張など、レイヤ横断でネットワーク技術の開発が進められているため、その全体を理解し実際に動かすためには、複数の企業が協力しながら調査や検証を進めることが必要となります。
本セッションでは、まずPFCやECN等、既存のロスレスイーサネット技術やそれを利用したRoCEv2が持つ課題を整理し、それら課題を解決するためにUECで仕様検討が続けられている技術を、トランスポート層、ネットワーク層、オフロード技術、など、いくつかの視点から公開情報を元に解説します。
その後、これら新しい技術を活用可能なユースケースや、利用時に想定される課題、UECで議論されている以外に必要な機能、などを議論することで、JANOG参加者の皆さんが持つ将来のイーサーネット技術に対する課題や期待を整理し、協力して調査や検証を進めるきっかけを作ることを目指します。
\[1\] [https://www.linuxfoundation.org/press/announcing-ultra-ethernet-consortium-uec](https://www.linuxfoundation.org/press/announcing-ultra-ethernet-consortium-uec)
### 場所
第1展示場A
### 日時
Day1 2025年1月22日(水) 15:45~16:30(45分)
### 発表者
海老澤 健太郎
Kentaro Ebisawa
Arrcus, Inc.
上野 裕一郎
Yuichiro Ueno
Preferred Networks, Inc.
### 公開資料
本プログラムはオフレコのため公開資料はありません。
### アーカイブ配信
本プログラムはオフレコのためアーカイブはありません。
## メモ
- 前半はPFNの話
- 機械学習基盤入門
- JANOG初参加
- Scale-up Fabric
- [[NVLink]]やPCI-e
- マルチノード学習
- 深層学習ユーザー
- 4 GPUs 16MBのfloat16配列でall reduceする。
- あとはncclにお任せ。
- ECMP flow方割
- TCP/IPの面白い技術
- linux kernel -> veth/overlay/eBPF
- RDMAは、TCP/IPスタックではない。rdma-core (userspce)
- NICでやらないといけない。
- IP-CLOS, BGP, ROCE-v2
- 後半はUEC
- 将来はストレージに広げていきたい。
- HPCとAI
- 遅延、帯域、メモリ、トポロジー、など律速場所がワークロードによって異なる
- モデルがかわったらワークロードかわる
- 汎用的にできるプロトコル。
- ロスレス担保はつらい。PFCを長距離にするとバッファサイズめっちゃいる。
- DC内でもバッファチューニング必要。
- HOLブロッキング
- 服装伝搬
- デットロック
- バッファサイズ、ECN閾値
- LBの課題
- Flowletを認識する閾値
- ECMP hash
- UECの技術スタック
- MPI, CCL, SHMEM, などの分散計算
- libfabric API (OFI)を使用
- トランスポート層 -> ROCEv2 -> UET (Ultra Eathernet Transport)
- ncclはどうする?
- AIエンジニアといっしょにネットワークを考えていく必要がある。
- Packet Trimming
- リオーダーリング
- packet spray
- reordering buffer
- Ephemercal Connection
- 最初のパケットからセッション情報いれる
- [[TCP Fast Open]]みたいな?
- アプリ側の対応がいる。
- 2025 Q1にリリース?
- UEC対応品
- AMD, Boradcom, Marvel
- UECはROCEv2とUETと置き換えるスタック全体の改善
- Q&A
- LINEヤフー
- 輻輳通知
- ECN packet trimming
- サイズは小さくなる。受信側から送信側通知をうけてレート下げる。
- UETいろんなモードがある。
- ??
- AMD UEC < Nvidia ROCEv2 。ドライバーのチューニングの問題?いつ追い越せるのか?
- 設定のパラメータチューニングの簡単さ?
- (ebiken)簡単になると期待している。
- KDDI 宮坂さん
- インターオペレーション
- NICは確実に変える。UEC 1.0では、Connext-Xはサポートしないのでは
- Switchはハードは交換いらないかな。
- Link Layerはまだわからない。
- ソフトウェアで、集団通信アルゴリズムがはやいのか?
- ぱっとUECではやくするのは難しい。
- 誰が集団通信アルゴリズム書くのか?
- NTT研 中野さん
- packet sprayでreorderしなくてよくなるが、GPU台数 rail optimizedしている。leaf switchで折り返し。64ポートで足りている。UECまでいるのか?
- GPUがどれぐらいだったら必要なのか?
- ハイパージャイアントにあわせている。小さいクラスタでも。
- GPU モデルがかわっても、rail optできる?PCIバスにどうつながっているかでrail optできなかったりする。
- cclがかわってもよいように。
- 3D並列 並列度の組み方ではどうやってもrail optにならないこともある。full bisectionはやりすぎ?その間になにかある?
- Spray: packet sprayで、leafがうけとるタイミングがずれる?デバッグも大変?
-
- https://github.com/aws/aws-ofi-nccl