# LMCache
KV キャッシュの管理・転送を担うソフトウェア。[[NIXL]] を利用した P2P データ転送機能で Prefill-Decode Disaggregation(PD Disaggregation)を実現する。
Prefill インスタンスと Decode インスタンス間の NIXL 経由データ転送チャネルとメタデータ交換(ZMQ ベース)を管理し、プロキシサーバー `disagg_proxy_server.py` がユーザーリクエストを Prefiller → Decoder にルーティングする。[[vLLM]] と組み合わせて利用される。
[[UCX]] → [[NIXL]] → LMCache → [[vLLM]] の 4 層スタック構成の中で、KV キャッシュ転送の制御プレーンを担う位置づけにある。処理フローの詳細は [[@2026__さくらのナレッジ__高火力PHYを利用した分散推論基盤の性能検証]] に記述されている。
## 関連
- ソース: [[@2026__さくらのナレッジ__高火力PHYを利用した分散推論基盤の性能検証]]
- 関連ソフトウェア: [[vLLM]] / [[NIXL]] / [[UCX]]
- 関連概念: [[LLM推論]]