# データセンターL2ファブリック ## 定義 データセンター L2 ファブリックとは、データセンター全体を単一の L2(レイヤ 2)ネットワークとして見せるアーキテクチャ設計である。MAC アドレスベースの転送でサービス中の VM が IP アドレスを変えずに物理ホスト間を移行でき、管理者が各スイッチを個別設定する必要がない「プラグアンドプレイ」ファブリックを目指す。PortLand(SIGCOMM 2009)はこの概念を初めて大規模データセンター向けに実装・評価した代表的な研究だ。(Source: [[@2009__SIGCOMM__PortLand - A Scalable Fault-Tolerant Layer 2 Data Center Network Fabric]]) ## 主要設計要素(PortLand モデル) ### PMAC(Pseudo MAC)アドレス ホストの**位置情報をエンコードした 48 ビット階層アドレス**。形式は `pod.position.port.vmid`。 - エンドホストは自身の AMAC(実 MAC)を使い続け、変更を認識しない - 全転送は PMAC に基づいて行われ、宛先エッジスイッチが最終ホップで PMAC → AMAC に書き換える - フォワーディングテーブルは O(k) エントリで維持できる(k = スイッチポート数) ### ファブリックマネージャ 論理集中型の制御コンポーネント。ARP 解決・障害情報配布・マルチキャスト管理を担う。 - **ソフトステートのみ**を保持 → 管理者による初期設定不要、レプリカ運用が容易 - ARP をプロキシ処理し、全域ブロードキャストを回避 - 障害検知通知を受け、影響スイッチに再計算を指示(O(n) メッセージ、従来の O(n²) と対照的) - 障害時は効率的なブロードキャスト ARP にフォールバック ### LDP(Location Discovery Protocol) スイッチが自律的にトポロジ上の自分の位置(エッジ/集約/コア、ポッド番号、ポジション)を発見するプロトコル。定期的な LDM(Location Discovery Message)交換で管理者設定ゼロを実現し、LDM は定常状態のリブネス監視(キープアライブ 10ms 間隔、50ms タイムアウト)も兼ねる。 ### VM マイグレーション対応 VM 移行後に Gratuitous ARP を送信し、ファブリックマネージャが旧エッジスイッチにキャッシュ無効化を指示。通信中ホストに新 PMAC を Unicast Gratuitous ARP で通知することで L2 透過的なマイグレーションを実現する。 ### ループフリー転送の保証 up-down セマンティクス(上り向きポートからのパケットを上り向きポートに転送しない)により、追加ヘッダなしで転送ループが数学的に証明可能。スパニングツリーによる帯域制限を受けない。 ## 横断的知見 (複数ソースからの突き合わせ知見を蓄積していく。現時点では 1 ソース目。) - PortLand と TRILL/SEATTLE の比較(SIGCOMM 2009): PortLand の強みは多根木トポロジー前提により O(k) スイッチ状態・ループフリー証明・効率的耐障害マルチキャストを同時に実現できる点にある。一方で TRILL/SEATTLE は任意トポロジーに対応する代わりにホスト数規模の転送テーブルとループリスクを抱える。(Source: [[@2009__SIGCOMM__PortLand - A Scalable Fault-Tolerant Layer 2 Data Center Network Fabric]]) ## 未解決の問い - PortLand は 2009 年時点のファットツリー構成が前提。ハイパースケールのスパインリーフ(Spine-Leaf)アーキテクチャや大規模 CLOS ファブリックでも同じ PMAC/LDP アプローチは有効か? - ファブリックマネージャの可用性を保証するためのレプリカプロトコルはどの程度の一貫性が必要か(強整合性なしでどこまで許容できるか)? - VM マイグレーションの断絶 200–600ms は、現代のコンテナ化・マイクロサービスワークロードの要件(ゼロダウンタイム)に対して許容範囲か? - PMAC の 16 ビット vmid(最大 65,535 VM/ポート)は現代のコンテナ密度(数千〜数万コンテナ/ホスト)に対して不足しないか? ## 関連 - [[@2009__SIGCOMM__PortLand - A Scalable Fault-Tolerant Layer 2 Data Center Network Fabric]] — 主要出典 - [[データセンターネットワーク信頼性]] — 障害検知・収束の観点で関連 - [[Radhika Niranjan Mysore]] / [[Amin Vahdat]] — 著者 ## 出典 - [[@2009__SIGCOMM__PortLand - A Scalable Fault-Tolerant Layer 2 Data Center Network Fabric]]