NCCLX - yuuk1's Digital Garden

# NCCLX [[Meta]] が開発した集合通信フレームワーク。NVIDIA の [[NCCL]] ライブラリを基盤としつつ拡張し、Llama4 の開発・展開を支えるために作られた。PyTorch の下層で動作し、10万 GPU 超のクラスタ上で訓練の同期要求から推論の低レイテンシ要求まで、LLM ライフサイクル全体の通信を一元管理する。(Source: [[@2025__arXiv__Collective Communication for 100k+ GPUs]], §1) - 中核はホスト駆動・ゼロコピー・SM フリーを設計原理とするカスタムトランスポート [[CTran]] で、host-initiated / GPU 常駐メタデータ付き host-initiated / device-initiated の三実行モードを統一スタックで提供する(§3)。 - 輻輳管理に [[DQPLB]](Dynamic Queue Pair Load Balancing)を備え、Llama3 比でスイッチバッファ蓄積を一桁削減する。 - 公開コードは [[torchcomms]](`github.com/meta-pytorch/torchcomms` の `comms/ncclx`)。 ## 関連 - ソース: [[@2025__arXiv__Collective Communication for 100k+ GPUs]] - エンティティ: [[NCCL]] / [[CTran]] / [[DQPLB]] / [[torchcomms]] / [[Llama4]] / [[Meta]]