# R-Pingmesh論文に記載されているパラメータ
R-Pingmesh論文では、システムの設計と実装に関連する様々なパラメータが記載されています。これらのパラメータは、R-Pingmeshの効率的な動作、モニタリングの精度、リソース使用量の最適化に重要な役割を果たしています。
## プローブ頻度関連パラメータ
### ToR-meshプローブ頻度
- **値**: 10パケット/秒
- **目的**: 100msの粒度でRNICの異常を検出するため
- **記載箇所**: 実装セクション(Section 5)
- **説明**: ToR-meshプローブは同一ToRスイッチ配下のRNIC間で行われ、RNICの状態をリアルタイムで監視します。
### Inter-ToRプローブ間隔
- **クラスタごとに異なる値**
- **目的**: 各リンクが方向ごとに1秒あたり10以上のプローブを送信することを確保
- **記載箇所**: 実装セクション(Section 5)
- **説明**: ToR間のリンクをモニタリングするためのプローブ頻度で、ネットワークトポロジによって変化します。
### サービストレーシングプローブ間隔
- **値**: 10ms
- **目的**: ネットワーク輻輳をより適切に捉えるため
- **記載箇所**: 実装セクション(Section 5)
- **説明**: サービスが使用するパスをプローブする際の間隔で、輻輳などの問題を短い時間間隔で検出できます。
## アルゴリズム関連パラメータ
### ECMP経路カバレッジのk値(式1)
- **計算方法**: 式(1)を使用
- **パラメータP**: 0.99(99%のカバレッジ確率)
- **記載箇所**: Section 3.3.1
- **説明**: ToRスイッチ間の全クロスToRリンクをECMPでカバーするために必要な5タプルの数を計算するパラメータ。
```
arg min ∑(k, i=1, N) ((-1)^(i+1) * (N choose i) * (1-i/N)^k) ≤ 1-P
ここでk ≥ N
```
### 異常RNIC検出のしきい値
- **値**: 10%
- **記載箇所**: 実装セクション(Section 5)
- **説明**: あるRNICへのプローブの10%以上がタイムアウトした場合、そのRNICは異常と見なされます。
## 時間関連パラメータ
### Pinglist更新間隔
- **値**: 5分
- **記載箇所**: 実装セクション(Section 5)
- **説明**: コントローラーがエージェントのToR-mesh/inter-ToR pinglistを更新する頻度です。
### ping間5タプル変更頻度
- **値**: 1時間ごとに20%
- **記載箇所**: 実装セクション(Section 5)
- **説明**: コントローラーが各inter-ToR pinglistの5タプルを変更する頻度で、特定の5タプルでのみトリガーされるパケットドロップを検出するためです。
### 分析周期
- **値**: 20秒
- **記載箇所**: 実装セクション(Section 5)
- **説明**: Analyzerがリアルタイムで問題を検出・特定するために使用する分析期間です。
### プローブタイムアウト
- **値**: 500ms
- **記載箇所**: Agent実装部分で言及
- **説明**: プローブが応答を受け取るまでの最大待機時間です。
## リソース使用制限パラメータ
### 最大スイッチリロード数
- **値**: 1日あたり最大20台
- **記載箇所**: パケットブラックホール検出セクション(Section 5.1)
- **説明**: アルゴリズムが1日にリロードするスイッチの最大数を制限し、スイッチリブートの影響を最小化します。
### エージェントCPU使用率
- **実測値**: 0.26%(平均)
- **記載箇所**: パフォーマンス評価セクション
- **説明**: 2500台のサーバーに対してプローブを行った際のエージェントのCPU使用率です。
### エージェントメモリ使用量
- **実測値**: 45MB未満
- **記載箇所**: パフォーマンス評価セクション
- **説明**: プローブ実行中のエージェントのメモリフットプリントです。
### 帯域幅使用量
- **実測値**: RNICあたり数十Kb/s
- **記載箇所**: パフォーマンス評価セクション
- **説明**: Pingmeshプローブによって生成されるトラフィック量で、データセンターネットワークの総容量と比較して無視できるレベルです。
## しきい値パラメータ
### ネットワークSLA違反検出しきい値
- **パケットドロップ率**: 10^-3以上
- **99パーセンタイルレイテンシ**: 5ms以上
- **記載箇所**: ネットワークSLAセクション(Section 4.3)
- **説明**: これらの値を超えると、ネットワーク問題としてアラートが発生します。
## その他の値
### プローブペイロードサイズ
- **範囲**: 最大64キロバイト(実際には800-1200バイト程度)
- **記載箇所**: 実装セクション
- **説明**: Agentが設定可能なプローブパケットのペイロードサイズです。
### レイテンシ測定値(データセンター例)
- **DC1 P50/P99 intra-pod**: 216μs/1.26ms
- **DC1 P50/P99 inter-pod**: 268μs/1.34ms
- **記載箇所**: レイテンシデータ分析セクション(Section 4.1)
- **説明**: 論文で示されている2つの代表的なデータセンターのレイテンシ分布の実測値です。
これらのパラメータは、大規模なRoCEネットワークのモニタリングと診断において、効率的なリソース使用とタイムリーな問題検出のバランスを取るために慎重に選択されています。R-Pingmeshシステムの実装時には、環境に応じてこれらのパラメータを調整することも可能です。