# MRC
## 定義
MRC(Multipath RC)は [[RDMA]] の RC(Reliable Connection)トランスポートを拡張した新トランスポート機構である。従来の RC は 1 キューペアが 1 パスに固定される単一経路転送だが、MRC では 1 キューペアが数百の並列パスへ同時にパケットスプレーを行う。[[OpenAI]] が開発し、10 万 GPU 超の LLM 訓練クラスタで本番実証した。(Source: [[@2026__LinkedIn__Resilient AI Supercomputer Networking - How MRC and SRv6 Keep 100,000+ GPUs Training]])
主要特性:
- **自動輻輳回避**: 輻輳したパスを動的に避けてトラフィックを再分散する
- **マイクロ秒級回復**: リンク障害時に再訓練なしでマイクロ秒単位で回復する
- **フロー衝突排除**: 均等分散により単一パス過負荷を防ぐ
## 横断的知見
現時点では単一ソースのみ。2 ソース目以降に横断的知見を積み増す。
- MRC は [[RDMA]] の単一パス制約を「1 キューペア = 数百パスのスプレー」として解くアプローチであり、既存の ECMP ハッシュベース多経路と根本的に異なる。ECMP はフロー単位で経路を固定するため衝突が生じるが、MRC はパケット粒度で分散する。(Source: [[@2026__LinkedIn__Resilient AI Supercomputer Networking - How MRC and SRv6 Keep 100,000+ GPUs Training]])
- [[RDMA]] ページで示された PFC pause や head-of-line blocking 問題は、MRC のパス分散によって根本的に緩和できると考えられるが、PFC との相互作用は未確認。(Source: [[@2026__LinkedIn__Resilient AI Supercomputer Networking - How MRC and SRv6 Keep 100,000+ GPUs Training]], [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]])
## 未解決の問い
- MRC と ECMP/WCMP の多経路は何が根本的に違うのか。パケット粒度スプレーの実装詳細(順序保証はどう扱うか)はどうなっているか。
- MRC は RoCEv2 上で動作するか、それとも独自のネットワーク層を必要とするか。
- [[RDMA]] ページで指摘されている PFC pause との相互作用はどうなるか。MRC がパケットスプレーをすることで PFC の動作はどう変わるか。
- 元となる OpenAI 研究論文の詳細(アーキテクチャ、評価手法、ベンチマーク数値)はどこで確認できるか。
## 関連
- 概念: [[RDMA]] / [[SRv6]] / [[マルチプレーンClosトポロジ]] / [[LLM分散学習]] / [[集合通信]]
- ソース: [[@2026__LinkedIn__Resilient AI Supercomputer Networking - How MRC and SRv6 Keep 100,000+ GPUs Training]]
## 出典
- [[@2026__LinkedIn__Resilient AI Supercomputer Networking - How MRC and SRv6 Keep 100,000+ GPUs Training]]