AI/MLワークロードにおけるネットワーク監視の重要性と、[[sFlow]]を用いた可視化手法について解説されたブログ。 ## 概要 * AI/MLトレーニング用のGPUクラスター(244ノード、100Gリンク)を対象。 * 業界標準のsFlowテレメトリとsFlow-RTリアルタイム分析エンジンを活用。 * RoCEv2トラフィックの監視に特化し、[[NCCL]](AllReduce, Broadcast等)のパフォーマンスを追跡。 ## 監視メトリクス [[Grafana]]ダッシュボードで以下の指標をリアルタイムに追跡する。 * **Total Traffic**: ファブリック全体の総トラフィック量。 * **RoCEv2 Operations**: 操作タイプ別のRoCEv2実行数。 * **Link Traffic Histogram**: コアリンクおよびエッジリンクの負荷分布。 * **RDMA性能**: RDMA操作数および平均操作サイズ。 * **Credit/Flow Control**: RoCEv2確認応答における平均クレジット数。 * **Congestion/Errors**: ECN/CNPによる輻輳メッセージ数、入出力エラーおよびパケット破棄数。 ## 特徴 * Arista, Cisco, Dell, Juniper, NVIDIA等の主要スイッチベンダーにsFlowが組み込まれている。 * 大規模AI/MLファブリックにおいて、低コストで詳細な可視性を提供。 * ファブリック上の計算とデータ交換のアクティビティ期間(Period)を正確に検出可能。 --- URL: https://blog.sflow.com/2025/10/ai-ml-network-performance-metrics-at.html