Woosuk Kwon - yuuk1's Digital Garden

# Woosuk Kwon Woosuk Kwon は、SOSP 2023 論文 "Efficient Memory Management for Large Language Model Serving with PagedAttention" の第一著者(同等貢献)である。同論文は [[vLLM]] と PagedAttention を提案し、KV キャッシュのページ化管理により FasterTransformer / Orca 比で 2-4 倍のスループット改善を示した。(Source: [[@2023__SOSP__Efficient Memory Management for Large Language Model Serving with PagedAttention]]) ## 関連 - ソース: [[@2023__SOSP__Efficient Memory Management for Large Language Model Serving with PagedAttention]] - 概念: [[KVキャッシュ管理]]