[Network Observability for AI/HPC Training Workflows | Shengbao Zheng - YouTube](https://www.youtube.com/watch?v=-xB_8_z7uuY)
AI-ZoneのRDMAネットワークを介した高性能で信頼性の高い集団通信は、メタAIのトレーニング/推論ワークロードを可能にし、スケーリングするための基盤です。 ワークロードからネットワークへの集団通信をトップダウンで観測し、パフォーマンスの低下やトレーニングの失敗をバックエンドネットワークに帰着させる必要があります。 この目的のために、我々は2つの重要なツールを導入した: ROCETとPARAMベンチマークとChakraエコシステムである。 ROCETは、RDMAネットワークメトリクスにジョブを関連付け、その上で分析を提供するために構築しました。 さらに、PARAMベンチマークを構築し、ワークロードのトレースを通じて集団的な通信操作の分析とチューニングを可能にし、最近では、効率的な分散MLシステムの共同設計のためにChakraをコミュニティに提供している。 本講演では、その設計とユースケースについて解説する。
---
Geminiによる動画解釈(技術詳細の興味深い点を解説してください。)
**RDMA ネットワーク観測性とロケット:**
- **RDMA ハードウェア カウンタ:** Rocket は RDMA ハードウェア カウンタからメトリックを収集し、ネットワーク動作の包括的なビューを提供します。
- **エラー分析:** RDMA エラー (順序外パケット、NIC フラグ、ローカル ACK タイムアウトなど) を分析して、潜在的な問題を特定します。
- **輻輳分析:** Rocket は、パルス持続時間と収縮通知パケットを使用して輻輳を測定します。
- **相関分析:** RDMA メトリックとジョブ パフォーマンスを相関させて、トレーニング効率への影響を理解します。
![[Pasted image 20241010000639.png]]
**Prime と Chakra による集合通信のベンチマーク:**
- **Prime ベンチマーク:** Prime は、さまざまなプラットフォームと通信ライブラリ間でベンチマーク ロジックを標準化します。ワークロードの通信動作をキャプチャし、実行トレースの分析をサポートします。
- **Chakra エコシステム:** Chakra は、機械学習モデルの実行トレースの統一されたスキーマ、パフォーマンス モデリングとデバッグのためのツール、トレース合成機能を提供します。
- **実行トレース分析:** Prime と Chakra は実行トレースを分析して、通信パターンを理解し、ボトルネックを特定し、パフォーマンス チューニングのために集合操作をリプレイします。
**ケース スタディ: ネットワーク関連のジョブ障害の請求:**
- **エラーの特定:** Rocket を使用して、チームはホスト 11 での NIC CRC エラーの多さを特定しました。
- **タイムライン分析:** タイムライン チャートは、トレーニング ジョブの最後に発生した順序外パケット、NIC フラグ、ローカル ACK タイムアウトを明らかにしました。
- **根本原因分析:** この分析により、問題の原因がホスト 11 であることが特定されました。