## Memo ![[Pasted image 20260129152955.png]] ![[Pasted image 20260129153045.png]] ## Memo with LLM ### 論文情報 - **タイトル**: Collective Communication for 100k+ GPUs - **著者と所属**: Min Si, Pavan Balaji, et al. (Meta) - **カンファレンス/ジャーナル名**: arXiv - **発表年**: 2025 ### 論文概要 本論文は、10万以上のGPUを扱う大規模言語モデル([[LLM]])のトレーニングと推論における通信効率の課題に対処するため、Metaが開発した集合通信フレームワークNCCLXを提案しています。NCCLXは、高スループットと低レイテンシのデータ交換を保証し、Llama4モデルでの評価では通信効率の大幅な改善が実証されました。 ### 詳細解説 - **問題設定**: 大規模言語モデル(LLM)のトレーニングワークロードが数十万のGPUに拡大する中、従来のGPU通信メカニズム(例:NVIDIA [[NCCL]])は、この規模でのスループットとレイテンシに大きな制約を抱えており、最先端モデルの開発と展開を阻害しています。特に、NCCLのカーネル駆動型設計とコピーベースのデータ転送は、GPUリソースの競合やネットワーク飽和の困難さといった問題を引き起こしていました。 - **提案手法**: 本論文では、これらの課題を解決するために、NCCLX(Collective Communication for 100k+ GPUs)という集合通信フレームワークを提案しています。NCCLXは、既存のNCCLライブラリをベースとしつつ、以下の主要な特徴を持つカスタムトランスポート層「CTran」を導入しています。 - **ホスト駆動型カスタマイズ**: CPUスレッドが集合通信アルゴリズムをスケジュールし、GPUカーネルとの協調により、多様な通信要件やカスタムアルゴリズムの容易な実装を可能にします。 - **ゼロコピーデータ転送**: ユーザーバッファからネットワークアダプタへの直接データ転送を可能にし、中間バッファへのコピーを排除することで、GPUの計算リソースとHBM帯域幅の競合を削減し、レイテンシを大幅に改善します。 - **CTranとネットワークの共同設計**: 10万以上のGPUクラスタにおける階層的なネットワークトポロジを考慮し、Dynamic Queue Pair Load Balancing (DQPLB)などの技術を用いてネットワークの輻輳を管理します。 - **Llama4向けのカスタマイズ**: パイプライン並列処理におけるゼロコピーおよびSMフリーの送受信、テンソル並列処理におけるRMA Put、HSDPにおけるフォールトトレラントなAllReduce、推論におけるGPU常駐型コレクティブなど、Llama4ワークロードに特化した最適化を提供します。 - **新規性**: NCCLXの新規性は、従来のNCCLの限界を克服し、10万以上のGPUという前例のない規模でLLMの効率的な通信を可能にする点にあります。ホスト駆動型フレームワークとゼロコピーデータ転送を組み合わせることで、GPUリソースの競合を最小限に抑え、多様な通信パターンに対応できる柔軟なアーキテクチャを実現しています。 - **実験設定**: 評価は、Metaの大規模GPUクラスタ(高性能RoCEファブリックで構成された10万以上のGPU)上で行われました。特に、Llama4モデルを対象としたトレーニングおよび推論シナリオでNCCLXの性能をNCCLと比較しています。 - **実験結果**: - **トレーニング**: Llama4モデルのトレーニングステップのレイテンシを最大12%削減しました。また、96K規模でのトレーニング開始時間を最大11倍高速化しました。 - **推論**: Llama4 Maverickモデルを用いた推論において、エンドツーエンドのデコーディングレイテンシを15%から80%改善しました。 - **通信性能**: ゼロコピーはポイントツーポイント通信のレイテンシを最大2倍改善しました。 ## Abstract 大規模言語モデル(LLM)の規模拡大に伴い、特にトレーニングワークロードが数十万のGPUに及ぶ場合、非常に効率的なGPU通信メカニズムが求められています。従来の通信方法は、この規模ではスループットとレイテンシに大きな制約があり、最先端モデルの開発と展開の両方を妨げています。本稿では、Metaで開発されたNCCLX集合通信フレームワークを紹介します。これは、大規模トレーニングの同期要求から推論の低レイテンシ要件まで、LLMのライフサイクル全体でパフォーマンスを最適化するように設計されています。このフレームワークは、10万を超えるGPUクラスタでの複雑なワークロードをサポートし、信頼性の高い、高スループット、低レイテンシのデータ交換を保証します。Llama4モデルでの実証評価では、通信効率の大幅な改善が示されています。この研究は、次世代LLMが前例のない規模で動作することを可能にする堅廊なソリューションを提供します。