# R-Pingmesh R-Pingmesh は、BUPT と [[Douyin Vision]] らが SIGCOMM 2024 で提案した、初のサービス認識型 RoCE ネットワーク監視・診断システムである。先行研究 [[papers/2015__SIGCOMM__Pingmesh - A Large-Scale System for Data Center Network Latency Measurement and Analysis|Pingmesh]](TCP/物理ネットワーク版)を RoCE へ拡張したもの。 - Agent・Controller・Analyzer の 3 モジュールから成り、Cluster Monitoring と Service Tracing の 2 機能を持つ。 - 市販 RNIC の標準インターフェース(verbs API)と UD QP・CQE タイムスタンプを用い、ネットワーク RTT とエンドホスト処理遅延を低オーバーヘッドで正確に測定する。 - ToR-mesh プロービングで異常 RNIC をリアルタイム検知し、RNIC 起因とネットワーク内のパケットドロップを区別する。 - 数万枚の RNIC に 6 か月以上展開され、Douyin Vision の RoCE ネットワークで最重要の監視・診断システムとなった。 ## 関連 - [[@2024__SIGCOMM__R-Pingmesh - A Service-Aware RoCE Network Monitoring and Diagnostic System]] - [[Douyin Vision]] / [[BUPT]]