# Meta AI Research SuperCluster [[Meta]] の ML 研究クラスタ群。[[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] では、同じ設計テンプレートを持つ 2 つの sister cluster として RSC-1 と RSC-2 が分析対象になる。RSC-1 は 16k A100 GPU の汎用 ML クラスタで、RSC-2 は 8k A100 GPU のビジョン寄りクラスタである。両クラスタは Slurm、裸メタル割当、NFS/AirStore/ObjectStore のストレージ構成、ノードレベルヘルスチェックを組み合わせる。(Source: [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]], §2) 運用規模は 11 か月で 4 百万ジョブ・1.5 億超 A100 GPU 時間に及び、RSC-1/RSC-2 の平均ジョブ投入数はそれぞれ 7.2k/日、4.4k/日、クラスタ利用率は 83%/85% である。RSC-1 は 4k+ GPU ジョブを含み、RSC-2 は 1 GPU ジョブへの偏りが強い。(Source: [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]], §2-§3) ## 関連 - ソース: [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] - エンティティ: [[Meta]] - 概念: [[GPUクラスタ運用]] / [[LLM分散学習]] / [[耐障害LLM訓練]]