# LMCache KV キャッシュの管理・転送を担うソフトウェア。[[NIXL]] を利用した P2P データ転送機能で Prefill-Decode Disaggregation(PD Disaggregation)を実現する。 Prefill インスタンスと Decode インスタンス間の NIXL 経由データ転送チャネルとメタデータ交換(ZMQ ベース)を管理し、プロキシサーバー `disagg_proxy_server.py` がユーザーリクエストを Prefiller → Decoder にルーティングする。[[vLLM]] と組み合わせて利用される。 [[UCX]] → [[NIXL]] → LMCache → [[vLLM]] の 4 層スタック構成の中で、KV キャッシュ転送の制御プレーンを担う位置づけにある。処理フローの詳細は [[@2026__さくらのナレッジ__高火力PHYを利用した分散推論基盤の性能検証]] に記述されている。 ## 関連 - ソース: [[@2026__さくらのナレッジ__高火力PHYを利用した分散推論基盤の性能検証]] - 関連ソフトウェア: [[vLLM]] / [[NIXL]] / [[UCX]] - 関連概念: [[LLM推論]]