[How Meta trains large language models at scale - Engineering at Meta](https://engineering.fb.com/2024/06/12/data-infrastructure/training-large-language-models-at-scale-meta/?utm_source=substack&utm_medium=email) 私たちが観測した最も頻度の高い故障モードには、次のようなものがある: - [[GPU]]が落ちる: この場合、GPUはPCIe上でホストに検出されない。この障害にはいくつかの理由がありますが、この障害モードは初期に多く見られ、サーバーが古くなるにつれて落ち着きます。 - DRAM & SRAM UCE: 訂正不可能なエラーはメモリではよくあることです。当社では、繰り返し発生するエラーを監視および特定し、しきい値に照らして追跡し、エラー率がベンダーのしきい値を超えた場合にRMAを開始します。 - HWネットワークケーブル: 到達不能なサーバーの一般的なカテゴリーでは、これらの障害はサーバーの初期に最も多く見られる。 > RoCEとInfiniBandの [2つの24kクラスタを](https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/)構築する ことにしました。私たちの意図は、構築して運用経験から学ぶことでした。 >  [[Llama3]]トレーニングにはInfiniBandクラスタとRoCEクラスタの 両方を使用し、最大のモデルのトレーニングにはRoCEクラスタを使用しました。 > 1. 我々は、異なるモデル、データ、パイプラインの並列処理から生じる通信パターンをネットワーク・トポロジーの異なるレイヤーに割り当て、ネットワークの能力を効果的に活用できるようにした。 2.我々は、ネットワーク・トポロジーを意識したコレクティブ・コミュニケーション・パターンを実装することで、レイテンシーの影響を受けにくくした。これは、リングのような従来のアルゴリズムの代わりに、再帰的な2重化または半減のようなカスタムアルゴリズムでコレクティブのデフォルトの実装を変更することによって行う。 > 3.ランキングジョブと同様に、GenAIのジョブは、すべての可能なネットワーク経路にトラフィックを分散させることを困難にする追加のファットフローを生成します。このため、ネットワークの負荷分散とルーティングにさらに投資して、ネットワークリソース全体で最適なトラフィック配分を実現する必要がありました。 [Scaling RoCE Networks for AI Training | At Scale Conferences](https://atscaleconference.com/videos/scaling-roce-networks-for-ai-training/) [OCP Summit 2022: Open hardware for AI infrastructure](https://engineering.fb.com/2022/10/18/open-source/ocp-summit-2022-grand-teton/)