# KVShare
[[Central South University]] と [[Tsinghua University]] の共同研究で開発されたマルチテナント KV キャッシュ共有フレームワーク。[[vLLM]] 0.4.1 をベースに Python 約 2,000 行で実装されている。
**論文**: [[@2025__arXiv__KVShare - An LLM Service System with Efficient and Effective Multi-Tenant KV Cache Reuse]](arXiv 2503.16525, v2 2025-05-16, [[Huan Yang]] ほか)
## 概要
異なるプレフィックスを持つリクエスト間での KV キャッシュ共有(クロスリクエスト再利用)を実現し、生じるアテンション偏差を選択的再計算で補正する。従来の固定長チャンクマッチングによるヒット率の低さと、デコードフェーズでのアテンション偏差蓄積という 2 つの問題を解決した。
## 主要コンポーネント
- **KV Retriever**: ローリングハッシュで可変長トークンセグメントをマッチングし、再利用可能な KV キャッシュをディスクからプールへロード
- **Cache-Aware Scheduler**: KV ヒット率降順でリクエストをソートし、類似ヒット率のリクエストを同一バッチに集約。TTFT を最大 1.5 倍(33.8%)削減
- **DHD Selector**: アテンション重みと KV 偏差の積(Score = α · ‖ΔV‖₁)でトークンを優先順位付けし、上位 r% を再計算。プリフィルとデコードの両フェーズで動的に実行
- **KV Writer**: 計算済み KV キャッシュをプールへ書き戻す
## 性能
実験環境: NVIDIA L40S × 1、Qwen2.5-7B / Llama3.1-8B / Yi1.5-9B、ShareGPT データ
| 指標 | 改善 |
|---|---|
| TTFT | Full Recompute 比 最大 9.39 倍短縮 |
| スループット | Full Recompute 比 1.2 倍改善 |
| 精度(SOTA 比) | CacheBlend/EPIC 比 平均 20.38% 向上 |
| キャッシュヒット率 | 実世界 4 データセットで CacheBlend/EPIC を上回る |
## 比較
| 比較手法 | 差異 |
|---|---|
| CacheBlend | 固定長チャンク、偏差の大きさのみ基準、デコード偏差未対処 |
| EPIC | sink トークン位置基準、チャンク内重要度区別不可、可変長非対応 |
## 関連
- ソース: [[@2025__arXiv__KVShare - An LLM Service System with Efficient and Effective Multi-Tenant KV Cache Reuse]]
- コンセプト: [[KVキャッシュ管理]] / [[LLM推論]]
- エンティティ: [[Huan Yang]] / [[Central South University]] / [[Tsinghua University]] / [[vLLM]]