## Memo ## Memo with LLM ### 論文情報 - **論文タイトル**: Software-based Live Migration for RDMA - **著者と所属**: - Xiaoyu Li (清華大学/Microsoft Research) - Ran Shu (Microsoft Research) - Yongqiang Xiong (Microsoft Research) - Fengyuan Ren (清華大学) - **カンファレンス**: ACM SIGCOMM 2025 - **発表年**: 2025年 - **開催地**: ポルトガル・コインブラ(2025年9月8-11日) ### 論文概要 本論文は、今日のデータセンターでは未対応である[[RDMA]]アプリケーションのライブマイグレーションを実現するため、ハードウェア修正を必要としない純ソフトウェアベースのソリューション「MigrRDMA」を提案している。MigrRDMAは、RDMAライブラリ内にソフトウェア間接層を提供し、アプリケーションから透過的な新しいRDMA通信への切り替えを実現する。 ### 詳細解説 #### 問題設定 **入力と出力**: - 入力:RDMAを使用するコンテナ化されたアプリケーションとそのライブ通信状態 - 出力:マイグレーション先でのアプリケーション実行継続とRDMA通信の透過的復元 - 必要なデータ:RDMA通信状態(QP、MR、CQ等のリソース情報)、アプリケーションメモリ状態、ネットワーク接続情報 **制約**: - コモディティRNIC(RDMA NIC)上での動作(ハードウェア修正不要) - アプリケーションレベルでの透過性維持 - 最小限のダウンタイム実現 #### 提案手法 MigrRDMAは3つの主要機能を提供: **1. 部分復元中のRDMA通信事前セットアップ** - メモリ復元前にRDMA関連メモリ構造を元の仮想アドレスに直接マッピング - 元の仮想メモリアドレスを使用してメモリ登録を可能にし、部分復元中に全RDMA通信をセットアップ - 新規に登録されるメモリについては、ストップアンドコピー段階まで復元を遅延 **2. RDMA通信状態の効率的仮想化** - 仮想-物理変換テーブルをRDMAドライバで管理し、RDMAライブラリと共有 - 仮想アクセスキーを順次割り当て、配列を使用して変換テーブルを維持 - ローカル状態とリモート状態を分類し、それぞれに最適化された仮想化手法を適用 **3. インフライトワークリクエスト一貫性のためのwait-before-stop** - ストップアンドコピー開始時にRDMA通信を一時停止 - 全インフライトワークリクエストの完了を待機 - この間アプリケーションは計算タスクを継続実行可能 - 復元時に仮想RNICとして動作し、アプリケーションが全完了通知を処理 #### 新規性 **先行研究との比較**: - **MigrOS**: RNICハードウェア修正が必要で、商用環境では実装困難 - **FreeFlow/LubeRDMA**: 高オーバーヘッドまたは効率性の問題 **MigrRDMAの新規性**: - ハードウェア修正不要の純ソフトウェアソリューション - 配列ベースの高効率仮想化手法(線形時間アクセス) - 透過的なRDMA状態移行メカニズム - アプリケーション実行継続を可能にするwait-before-stop方式 #### 実験設定 **使用データセット・環境**: - 6台のサーバー構成(マイグレーション元・先、4台の通信パートナー) - Intel Xeon CPU E5-2698 v3(デュアル16コア)、256GB RAM - Mellanox ConnectX-5 100Gbps RNIC - Arista 7260CX3-64スイッチ **評価指標**: - ブラックアウト時間(サービス停止時間) - wait-before-stopのオーバーヘッド - 仮想化層のデータパスオーバーヘッド - アプリケーション性能への影響(スループプット、ジョブ完了時間) **実装環境**: - Mellanox OFED 5.4ドライバベース - カーネル空間:約4,500行のC言語追加 - ユーザー空間ライブラリ:約11,000行 - CRIU:約3,200行追加 - runc:約1,100行追加 #### 実験結果 **1. RDMA事前セットアップの効果**: - QP数に応じてブラックアウト時間を最大58%削減 - QP数が4,096の場合、事前セットアップなしでは復元が総時間の約50%を占有 - 事前セットアップにより、RestoreRDMA時間をほぼ排除 **2. wait-before-stopのオーバーヘッド**: - ほとんどのケースでコミュニケーションブラックアウト時間への貢献は最小限 - 理論値以下の実測時間(RNICが一部ワークリクエストを事前完了のため) - パートナー数に応じたスケーラビリティを確認 **3. 仮想化層のオーバーヘッド**: - データパス操作に3%〜9%の追加オーバーヘッドのみ - 1億RDMA操作/秒サポートに0.15〜0.42 CPUコアのみ必要 - send/recv/write/read操作で4.6〜8.3追加サイクル **4. 実世界アプリケーション評価**: - Hadoop DFSIOタスクでスループプット低下12.5%(フェイルオーバー比較65.8%低下) - ジョブ完了時間の追加は3秒のみ(フェイルオーバー比較20秒追加) - ライブマイグレーション中のブラウンアウト時間は性能への影響が軽微 ## Abstract ライブマイグレーションは、データセンターでのホストメンテナンス中にサービスが中断されないようにするために重要である。一方、RDMAはデータセンターで広く採用されており、長年にわたって学術界と産業界の両方の注目を集めている。しかし、RDMAのライブマイグレーションは今日のデータセンターではサポートされていない。RDMA NIC(RNIC)をライブマイグレーション対応にするための修正が長年提案されているが、コモディティRNICでサポートされる兆候はない。本論文では、追加のハードウェアサポートに依存しないソフトウェアベースのRDMAライブマイグレーション「MigrRDMA」を提案する。MigrRDMAは、新しいRDMA通信への透過的な切り替えを実現するソフトウェア間接層を提供する。共有と分離を提供する従来のRDMA仮想化とは異なり、MigrRDMAの間接層は、アプリケーションの観点からマイグレーション元と先のRDMA状態を同一に保つことに焦点を当てている。我々はMellanox RNIC上でMigrRDMAプロトタイプを実装した。評価の結果、MigrRDMAは、ライン速度で動作するライブRDMA接続を持つコンテナをマイグレーションする際にわずかなダウンタイムしか追加しないことが示された。さらに、MigrRDMA仮想化層はデータパスにおいて3%〜9%の追加オーバーヘッドのみを加える。Hadoopタスクのマイグレーション時、MigrRDMAはジョブ完了時間にわずか3秒の追加しか生じない。