[[Microsoft]] が提案・実装したクロスサイト LLM 推論ルーター([[@2026__arXiv__XWind - A Cross-site Router for Large Language Model Inference Serving at Renewable Energy Farms]])。[[AI Greenferencing]](風力発電サイトに GPU コンピュートを直接配置する展開モデル)の中核システムとして機能し、電力可変・地理分散した複数サイトへ推論リクエストを動的分配する。 ## アーキテクチャ XWind は 2 層構造で構成される: **XW-Slc(XWind Site-local Controller)**: 各 Greenferencing サイト内のサイトローカルコントローラ。アクティブノード数 N と GPU 動作周波数 f の **デュアルノブ**を同時制御し、瞬間的な電力バジェット内で推論性能を最大化する。 - 決定サイクル: 3 分(15 分電力予測窓を 5 ステップで消化) - 風力予測を事前対応的に利用し、テレメトリシグナルで補正 - シグナル: KV キャッシュ利用率(先行指標)、TBT レイテンシ(遅行指標)、キュー深度 **XWind(クロスサイトルーター)**: データセンターリージョンに配置され、複数サイトへのルーティング重みを毎秒更新する。 - ルーティング重み: $W_i = N_i \times f_i$(瞬間的トークン処理能力の近似) - 事前対応パス: 容量・周波数変化時に即時リセット - 反応パス: 15 秒ごとに EMA 平滑化 TBT で尾部補正 ## 主な設計判断 - **ワークロード非依存**: オフラインプロファイリング・出力長予測を不要にし、実時間テレメトリのみで動作 - **選択的な関与**: 全サイトが電力需要を満たしている場合はパッシブ。XW-Slc が電力逼迫を予測した時だけ起動 - **非対称補正**: KV キャッシュ超過時 2Δf、TBT 超過時 Δf(KV の急峻な飽和クリフに対してより積極的に補正) - **発振防止**: XW-Slc がノードをアイドル化すると XWind が即時にルーティング重みを縮小し、キュー積滞の発振サイクルを断ち切る ## 評価結果 64 × A100 40GB テストベッド(3 サイト: 32/16/16 GPU)、Llama 3.1 8B、vLLM v1、Azure 本番トレース: - Max-FLOPS(デュアルノブだがテレメトリなし)に比べ、コーディング 175 RPS で XW-Slc が P99 E2E 22% 削減、会話で 52% 削減 - 静的ルーティングとの比較で XWind が P99 E2E を 69× 削減 - 単一ノブベースライン(Idle/Power-Capping/Downclock)は電力収縮時に 370 s 超に到達 ## 関連 - [[AI Greenferencing]] — XWind が支える展開モデル - [[Microsoft]] — 開発元 - [[Debopam Bhattacherjee]] — 論文の対応著者 - [[LLM推論]] — 対象ワークロード - [[vLLM]] — 評価に使用した推論フレームワーク