AI-ML基盤におけるGPU間ネットワークの負荷と性能影響を探る – JANOG55 Meeting @Kyoto

加納浩輝(トヨタ自動車株式会社) 奥澤智子(トヨタ自動車株式会社) |14:45|15:30 ### 概要 AI/ML基盤におけるGPU間通信では、高い性能が求められるため、専用の[[RDMA]]ネットワークを構築することが一般的です。これらのネットワークを最適化するには、アプリケーションが生成するトラヒック量や遅延要件を把握することが重要です。本発表では、AI/MLアプリケーションの通信特性理解を目的に「分散学習ジョブがネットワークに与える負荷」と「ネットワーク性能が分散学習時間に与える影響」に関して実験・分析を行った取り組みについて報告します。また、これらの分析結果踏まえ、将来のAI/MLアーキテクチャの方向性について考え、最適なアーキテクチャのあり方をみなさんと議論したいです。 ### 議論ポイント ①専用ネットワークの最適化において、アプリケーションの通信特性分析としてどのような検証を行っているか。 ②ネットワークの設計にどの程度アプリケーション特性を考慮しているか。（インフラとしてとにかく高性能化をめざしている？アプリ要件とコスト観点から、インフラ視点では妥協する場所もある？） ③AIワークロード実行中のネットワーク負荷をどのように可視化しているか。（特に、マイクロバースト） ④現在提案されているAI/ML基盤ネットワークアーキテクチャの中で、まだ最適化できるポイントはあるのか。 ### 場所第3展示場A ### 日時 Day1 2025年1月22日(水) 14:45～15:30(45分) ### 発表者加納浩輝 Kano Hiroki トヨタ自動車株式会社奥澤智子 Okuzawa Tomoko トヨタ自動車株式会社 ### 公開資料 [公開資料](https://www.janog.gr.jp/meeting/janog55/wp-content/uploads/2024/11/JANOG55_web%E6%8E%B2%E8%BC%89%E7%94%A8_kano-okuzawa.pdf) ## メモ - 1部：アプリからのネットワーク通信特定 - ４種類の分散学習 - データ並列 - FSDP - パイプライン並列 - テンソル並列 - アルゴリズムの発達で、逆伝搬と通信をオーバーラップしている。 - ![[Pasted image 20250122145339.png]] - 逆伝搬時間 > 通信時間を達成するには、「逆伝搬時間 > (送信したいデータ量 / 帯域)」が必要条件 - トラフィック推定式：1 Stepで１GPUが送信するデータ量 - $\cfrac{2(N-1)}{N} \times 4P$ - N：分散GPU数 - P：パラメータ数 - NW性能試験 - TCPとかとは違う。 - MTUとか指定するけど、RDMAはメッセージサイズとパケットサイズとは違う。 - perf-testsとnccl-testsではメッセージの意味が違う。 - 全データ→Bucket→Chunk→MTU の順でデータが分割され送信される - pytorch デフォルト25MB - 2部：なぜトヨタがAI？ -