AI-ML基盤における800GbEスイッチ導入とその挑戦 - JANOG56 Meeting in Matsue

### 概要サイバーエージェントでは、社内向けプライベートクラウド Cycloud を構築・運用しており、その中でも機械学習基盤 ML Platform を提供しています。 JANOG52 では「AI/ML基盤の400GDCネットワークを構築した話」を発表し、400 GbE スイッチを用いた分散学習用インターコネクト構築事例を共有しました。参考: [https://www.janog.gr.jp/meeting/janog52/aiml400/](https://www.janog.gr.jp/meeting/janog52/aiml400/) その後も400GbEスイッチを用いたインターコネクトを提供していましたが、この度GPUサーバーの増設に伴い800GbEスイッチを導入しました。これに併せて、ネットワーク構成の見直しや高密度配線を可能とする新たなコネクタの導入、モニタリング環境の改善などを実施しました。本発表では800GbEスイッチを用いたインターコネクト構築における設計上の工夫点や、異ベンダーのGPUサーバー・スイッチを用いた構成を実現する上で苦労したこととその対応についてを共有し、議論できればと思います。 ### 議論ポイント – 分散学習環境のNICの枚数はどのように決めましたか – 分散学習環境におけるGPUサーバー・スイッチの異ベンダー構成についてどう思いますか – 分散学習環境のチューニングはどのように行っていますか – AI/ML基盤のモニタリングをどのように行っていますか – 高電力・水冷時代のネットワーク設計・検証はどのように進めると良いですか – ラック内の高密度な配線を実現するための工夫などありますか ### 発表者小障子尚太朗 Shotaro Koshoji 株式会社サイバーエージェント疋田紅樹 Koki Hikida 株式会社サイバーエージェント ### 公開資料 [AI/ML基盤における800GbEスイッチ導入とその挑戦](https://www.janog.gr.jp/meeting/janog56/wp-content/uploads/2025/07/JANOG56_AIML%E5%9F%BA%E7%9B%A4%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B800GbE%E3%82%B9%E3%82%A4%E3%83%83%E3%83%81%E5%B0%8E%E5%85%A5%E3%81%A8%E3%81%9D%E3%81%AE%E6%8C%91%E6%88%A6.pdf) --- GPUサーバーネットワーク構成 Before • Internet + Storage: 25GbE x2 • Interconnect: 400GbE x8 • Rail-optimized Topology • Full Bisection Bandwidth • Adaptive Routing After System: DELL PowerEdge XE9680 / NVIDIA DGX H100GPU: NVIDIA H100 / H200Interconnect Switch: Juniper QFX5240-64OD / NVIDIA SN4700 ![[Pasted image 20250828211856.png]] 課題３：インターコネクトの利用状況が正確に把握できていないので可視化したい → マイクロバーストモニタリング CCL_CROSS_NIC = 0で、Leafにリングが閉じるようになった。 Spineスイッチを排除できるのか？ NCCLのログからGPU/NICとLeafスイッチの組み合わせがズレており、Spine経由のトポロジが形成されていることが判明 ![[Pasted image 20250828212516.png]] ![[GPUインターコネクトのマイクロバーストモニタリング]]