KVShare - yuuk1's Digital Garden

# KVShare [[Central South University]] と [[Tsinghua University]] の共同研究で開発されたマルチテナント KV キャッシュ共有フレームワーク。[[vLLM]] 0.4.1 をベースに Python 約 2,000 行で実装されている。 **論文**: [[@2025__arXiv__KVShare - An LLM Service System with Efficient and Effective Multi-Tenant KV Cache Reuse]](arXiv 2503.16525, v2 2025-05-16, [[Huan Yang]] ほか) ## 概要異なるプレフィックスを持つリクエスト間での KV キャッシュ共有(クロスリクエスト再利用)を実現し、生じるアテンション偏差を選択的再計算で補正する。従来の固定長チャンクマッチングによるヒット率の低さと、デコードフェーズでのアテンション偏差蓄積という 2 つの問題を解決した。 ## 主要コンポーネント - **KV Retriever**: ローリングハッシュで可変長トークンセグメントをマッチングし、再利用可能な KV キャッシュをディスクからプールへロード - **Cache-Aware Scheduler**: KV ヒット率降順でリクエストをソートし、類似ヒット率のリクエストを同一バッチに集約。TTFT を最大 1.5 倍(33.8%)削減 - **DHD Selector**: アテンション重みと KV 偏差の積(Score = α · ‖ΔV‖₁)でトークンを優先順位付けし、上位 r% を再計算。プリフィルとデコードの両フェーズで動的に実行 - **KV Writer**: 計算済み KV キャッシュをプールへ書き戻す ## 性能実験環境: NVIDIA L40S × 1、Qwen2.5-7B / Llama3.1-8B / Yi1.5-9B、ShareGPT データ | 指標 | 改善 | |---|---| | TTFT | Full Recompute 比最大 9.39 倍短縮 | | スループット | Full Recompute 比 1.2 倍改善 | | 精度(SOTA 比) | CacheBlend/EPIC 比平均 20.38% 向上 | | キャッシュヒット率 | 実世界 4 データセットで CacheBlend/EPIC を上回る | ## 比較 | 比較手法 | 差異 | |---|---| | CacheBlend | 固定長チャンク、偏差の大きさのみ基準、デコード偏差未対処 | | EPIC | sink トークン位置基準、チャンク内重要度区別不可、可変長非対応 | ## 関連 - ソース: [[@2025__arXiv__KVShare - An LLM Service System with Efficient and Effective Multi-Tenant KV Cache Reuse]] - コンセプト: [[KVキャッシュ管理]] / [[LLM推論]] - エンティティ: [[Huan Yang]] / [[Central South University]] / [[Tsinghua University]] / [[vLLM]]