XWind - yuuk1's Digital Garden

[[Microsoft]] が提案・実装したクロスサイト LLM 推論ルーター（[[@2026__arXiv__XWind - A Cross-site Router for Large Language Model Inference Serving at Renewable Energy Farms]]）。[[AI Greenferencing]]（風力発電サイトに GPU コンピュートを直接配置する展開モデル）の中核システムとして機能し、電力可変・地理分散した複数サイトへ推論リクエストを動的分配する。 ## アーキテクチャ XWind は 2 層構造で構成される: **XW-Slc（XWind Site-local Controller）**: 各 Greenferencing サイト内のサイトローカルコントローラ。アクティブノード数 N と GPU 動作周波数 f の **デュアルノブ**を同時制御し、瞬間的な電力バジェット内で推論性能を最大化する。 - 決定サイクル: 3 分（15 分電力予測窓を 5 ステップで消化） - 風力予測を事前対応的に利用し、テレメトリシグナルで補正 - シグナル: KV キャッシュ利用率（先行指標）、TBT レイテンシ（遅行指標）、キュー深度 **XWind（クロスサイトルーター）**: データセンターリージョンに配置され、複数サイトへのルーティング重みを毎秒更新する。 - ルーティング重み: $W_i = N_i \times f_i$（瞬間的トークン処理能力の近似） - 事前対応パス: 容量・周波数変化時に即時リセット - 反応パス: 15 秒ごとに EMA 平滑化 TBT で尾部補正 ## 主な設計判断 - **ワークロード非依存**: オフラインプロファイリング・出力長予測を不要にし、実時間テレメトリのみで動作 - **選択的な関与**: 全サイトが電力需要を満たしている場合はパッシブ。XW-Slc が電力逼迫を予測した時だけ起動 - **非対称補正**: KV キャッシュ超過時 2Δf、TBT 超過時 Δf（KV の急峻な飽和クリフに対してより積極的に補正） - **発振防止**: XW-Slc がノードをアイドル化すると XWind が即時にルーティング重みを縮小し、キュー積滞の発振サイクルを断ち切る ## 評価結果 64 × A100 40GB テストベッド（3 サイト: 32/16/16 GPU）、Llama 3.1 8B、vLLM v1、Azure 本番トレース: - Max-FLOPS（デュアルノブだがテレメトリなし）に比べ、コーディング 175 RPS で XW-Slc が P99 E2E 22% 削減、会話で 52% 削減 - 静的ルーティングとの比較で XWind が P99 E2E を 69× 削減 - 単一ノブベースライン（Idle/Power-Capping/Downclock）は電力収縮時に 370 s 超に到達 ## 関連 - [[AI Greenferencing]] — XWind が支える展開モデル - [[Microsoft]] — 開発元 - [[Debopam Bhattacherjee]] — 論文の対応著者 - [[LLM推論]] — 対象ワークロード - [[vLLM]] — 評価に使用した推論フレームワーク