[Network Observability for AI/HPC Training Workflows | Shengbao Zheng - YouTube](https://www.youtube.com/watch?v=-xB_8_z7uuY) AI-ZoneのRDMAネットワークを介した高性能で信頼性の高い集団通信は、メタAIのトレーニング/推論ワークロードを可能にし、スケーリングするための基盤です。 ワークロードからネットワークへの集団通信をトップダウンで観測し、パフォーマンスの低下やトレーニングの失敗をバックエンドネットワークに帰着させる必要があります。 この目的のために、我々は2つの重要なツールを導入した: ROCETとPARAMベンチマークとChakraエコシステムである。 ROCETは、RDMAネットワークメトリクスにジョブを関連付け、その上で分析を提供するために構築しました。 さらに、PARAMベンチマークを構築し、ワークロードのトレースを通じて集団的な通信操作の分析とチューニングを可能にし、最近では、効率的な分散MLシステムの共同設計のためにChakraをコミュニティに提供している。 本講演では、その設計とユースケースについて解説する。 --- Geminiによる動画解釈(技術詳細の興味深い点を解説してください。) **RDMA ネットワーク観測性とロケット:** - **RDMA ハードウェア カウンタ:** Rocket は RDMA ハードウェア カウンタからメトリックを収集し、ネットワーク動作の包括的なビューを提供します。 - **エラー分析:** RDMA エラー (順序外パケット、NIC フラグ、ローカル ACK タイムアウトなど) を分析して、潜在的な問題を特定します。 - **輻輳分析:** Rocket は、パルス持続時間と収縮通知パケットを使用して輻輳を測定します。 - **相関分析:** RDMA メトリックとジョブ パフォーマンスを相関させて、トレーニング効率への影響を理解します。 ![[Pasted image 20241010000639.png]] **Prime と Chakra による集合通信のベンチマーク:** - **Prime ベンチマーク:** Prime は、さまざまなプラットフォームと通信ライブラリ間でベンチマーク ロジックを標準化します。ワークロードの通信動作をキャプチャし、実行トレースの分析をサポートします。 - **Chakra エコシステム:** Chakra は、機械学習モデルの実行トレースの統一されたスキーマ、パフォーマンス モデリングとデバッグのためのツール、トレース合成機能を提供します。 - **実行トレース分析:** Prime と Chakra は実行トレースを分析して、通信パターンを理解し、ボトルネックを特定し、パフォーマンス チューニングのために集合操作をリプレイします。 **ケース スタディ: ネットワーク関連のジョブ障害の請求:** - **エラーの特定:** Rocket を使用して、チームはホスト 11 での NIC CRC エラーの多さを特定しました。 - **タイムライン分析:** タイムライン チャートは、トレーニング ジョブの最後に発生した順序外パケット、NIC フラグ、ローカル ACK タイムアウトを明らかにしました。 - **根本原因分析:** この分析により、問題の原因がホスト 11 であることが特定されました。