## Memo
- ![[Pasted image 20241114005331.png|500]]
## Memo with LLM
## Abstract
近年、AIモデルの計算密度と規模が急速に拡大していることから、効率的で信頼性の高い専用ネットワークインフラの構築が求められている。 本稿では、分散AIトレーニングのためのMetaの[[RoCE]](Remote Direct Memory Access over Converged Ethernet)ネットワークの設計、実装、運用について紹介する。 我々の設計原則は、ワークロードを深く理解することであり、これらの洞察を様々なネットワークコンポーネントの設計に反映させた: ネットワーク・トポロジー - AIハードウェア・プラットフォームの急速な世代進化をサポートするため、[[GPU]]ベースのトレーニングを独自の「バックエンド」ネットワークに分離しました。 ルーティング - 訓練ワークロードは本質的に負荷の不均衡とバースト性をもたらすため、最適に近いトラフィック分散を達成するためにルーティングスキームを何度か繰り返し導入しました。 **トランスポート**-当初は[[DCQCN]]を輻輳管理に使おうとしましたが、その後DCQCNから集団ライブラリ自体を輻輳管理に活用する方向に転換した方法について概説します。 **運用** - 開発したツールやトラブルシューティングの例を含め、大規模AIネットワークの運用経験を共有します。