# Meta 10万 GPU 超の大規模クラスタを運用する企業。集合通信ライブラリ NCCLX とその通信レイヤ CTran の開発主体であり、10万+GPU 規模での集合通信([[@2025__arXiv__Collective Communication for 100k+ GPUs]])を報告する。(Source: [[@2025__arXiv__Collective Communication for 100k+ GPUs]]) また、DCN 設計自動化システム Matryoshka を 6 年以上本番運用し、70 以上のリージョン・18 種類・約 900 DCN のスイッチ設定生成を完全自動化している。最新の 10 万 GPU AI スーパークラスタの設計・配備も Matryoshka が支えた。(Source: [[@2026__NSDI__Matryoshka - Realizing Hyperscale Data Center Network Design for the AI Era]]) [[Meta AI Research SuperCluster]] の RSC-1/RSC-2 を対象にした信頼性分析も公開している。[[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] は、16k A100 GPU の RSC-1 と 8k A100 GPU の RSC-2 から 11 か月・4 百万ジョブ・1.5 億超 A100 GPU 時間を分析し、MTTF のスケール則、ETTR 推定、レモンノード検知、InfiniBand 適応ルーティングを報告した。(Source: [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]]) ## 関連 - ソース: [[@2025__arXiv__Collective Communication for 100k+ GPUs]] / [[@2026__NSDI__Matryoshka - Realizing Hyperscale Data Center Network Design for the AI Era]] / [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] - 概念: [[集合通信]] / [[LLM分散学習]] / [[オープンネットワーキング]] / [[GPUクラスタ運用]] / [[耐障害LLM訓練]]