AI/MLワークロードにおけるネットワーク監視の重要性と、[[sFlow]]を用いた可視化手法について解説されたブログ。
## 概要
* AI/MLトレーニング用のGPUクラスター(244ノード、100Gリンク)を対象。
* 業界標準のsFlowテレメトリとsFlow-RTリアルタイム分析エンジンを活用。
* RoCEv2トラフィックの監視に特化し、[[NCCL]](AllReduce, Broadcast等)のパフォーマンスを追跡。
## 監視メトリクス
[[Grafana]]ダッシュボードで以下の指標をリアルタイムに追跡する。
* **Total Traffic**: ファブリック全体の総トラフィック量。
* **RoCEv2 Operations**: 操作タイプ別のRoCEv2実行数。
* **Link Traffic Histogram**: コアリンクおよびエッジリンクの負荷分布。
* **RDMA性能**: RDMA操作数および平均操作サイズ。
* **Credit/Flow Control**: RoCEv2確認応答における平均クレジット数。
* **Congestion/Errors**: ECN/CNPによる輻輳メッセージ数、入出力エラーおよびパケット破棄数。
## 特徴
* Arista, Cisco, Dell, Juniper, NVIDIA等の主要スイッチベンダーにsFlowが組み込まれている。
* 大規模AI/MLファブリックにおいて、低コストで詳細な可視性を提供。
* ファブリック上の計算とデータ交換のアクティビティ期間(Period)を正確に検出可能。
---
URL: https://blog.sflow.com/2025/10/ai-ml-network-performance-metrics-at.html