# R-Pingmesh論文に記載されているパラメータ R-Pingmesh論文では、システムの設計と実装に関連する様々なパラメータが記載されています。これらのパラメータは、R-Pingmeshの効率的な動作、モニタリングの精度、リソース使用量の最適化に重要な役割を果たしています。 ## プローブ頻度関連パラメータ ### ToR-meshプローブ頻度 - **値**: 10パケット/秒 - **目的**: 100msの粒度でRNICの異常を検出するため - **記載箇所**: 実装セクション(Section 5) - **説明**: ToR-meshプローブは同一ToRスイッチ配下のRNIC間で行われ、RNICの状態をリアルタイムで監視します。 ### Inter-ToRプローブ間隔 - **クラスタごとに異なる値** - **目的**: 各リンクが方向ごとに1秒あたり10以上のプローブを送信することを確保 - **記載箇所**: 実装セクション(Section 5) - **説明**: ToR間のリンクをモニタリングするためのプローブ頻度で、ネットワークトポロジによって変化します。 ### サービストレーシングプローブ間隔 - **値**: 10ms - **目的**: ネットワーク輻輳をより適切に捉えるため - **記載箇所**: 実装セクション(Section 5) - **説明**: サービスが使用するパスをプローブする際の間隔で、輻輳などの問題を短い時間間隔で検出できます。 ## アルゴリズム関連パラメータ ### ECMP経路カバレッジのk値(式1) - **計算方法**: 式(1)を使用 - **パラメータP**: 0.99(99%のカバレッジ確率) - **記載箇所**: Section 3.3.1 - **説明**: ToRスイッチ間の全クロスToRリンクをECMPでカバーするために必要な5タプルの数を計算するパラメータ。 ``` arg min ∑(k, i=1, N) ((-1)^(i+1) * (N choose i) * (1-i/N)^k) ≤ 1-P ここでk ≥ N ``` ### 異常RNIC検出のしきい値 - **値**: 10% - **記載箇所**: 実装セクション(Section 5) - **説明**: あるRNICへのプローブの10%以上がタイムアウトした場合、そのRNICは異常と見なされます。 ## 時間関連パラメータ ### Pinglist更新間隔 - **値**: 5分 - **記載箇所**: 実装セクション(Section 5) - **説明**: コントローラーがエージェントのToR-mesh/inter-ToR pinglistを更新する頻度です。 ### ping間5タプル変更頻度 - **値**: 1時間ごとに20% - **記載箇所**: 実装セクション(Section 5) - **説明**: コントローラーが各inter-ToR pinglistの5タプルを変更する頻度で、特定の5タプルでのみトリガーされるパケットドロップを検出するためです。 ### 分析周期 - **値**: 20秒 - **記載箇所**: 実装セクション(Section 5) - **説明**: Analyzerがリアルタイムで問題を検出・特定するために使用する分析期間です。 ### プローブタイムアウト - **値**: 500ms - **記載箇所**: Agent実装部分で言及 - **説明**: プローブが応答を受け取るまでの最大待機時間です。 ## リソース使用制限パラメータ ### 最大スイッチリロード数 - **値**: 1日あたり最大20台 - **記載箇所**: パケットブラックホール検出セクション(Section 5.1) - **説明**: アルゴリズムが1日にリロードするスイッチの最大数を制限し、スイッチリブートの影響を最小化します。 ### エージェントCPU使用率 - **実測値**: 0.26%(平均) - **記載箇所**: パフォーマンス評価セクション - **説明**: 2500台のサーバーに対してプローブを行った際のエージェントのCPU使用率です。 ### エージェントメモリ使用量 - **実測値**: 45MB未満 - **記載箇所**: パフォーマンス評価セクション - **説明**: プローブ実行中のエージェントのメモリフットプリントです。 ### 帯域幅使用量 - **実測値**: RNICあたり数十Kb/s - **記載箇所**: パフォーマンス評価セクション - **説明**: Pingmeshプローブによって生成されるトラフィック量で、データセンターネットワークの総容量と比較して無視できるレベルです。 ## しきい値パラメータ ### ネットワークSLA違反検出しきい値 - **パケットドロップ率**: 10^-3以上 - **99パーセンタイルレイテンシ**: 5ms以上 - **記載箇所**: ネットワークSLAセクション(Section 4.3) - **説明**: これらの値を超えると、ネットワーク問題としてアラートが発生します。 ## その他の値 ### プローブペイロードサイズ - **範囲**: 最大64キロバイト(実際には800-1200バイト程度) - **記載箇所**: 実装セクション - **説明**: Agentが設定可能なプローブパケットのペイロードサイズです。 ### レイテンシ測定値(データセンター例) - **DC1 P50/P99 intra-pod**: 216μs/1.26ms - **DC1 P50/P99 inter-pod**: 268μs/1.34ms - **記載箇所**: レイテンシデータ分析セクション(Section 4.1) - **説明**: 論文で示されている2つの代表的なデータセンターのレイテンシ分布の実測値です。 これらのパラメータは、大規模なRoCEネットワークのモニタリングと診断において、効率的なリソース使用とタイムリーな問題検出のバランスを取るために慎重に選択されています。R-Pingmeshシステムの実装時には、環境に応じてこれらのパラメータを調整することも可能です。