vllm
1 篇文章
Paged Attention + Prefix Caching:GPU 記憶體的終極解法(系列 3/3 完結篇)
作業系統幾十年前就用 paging 解決了記憶體碎片問題。vLLM 把同一招搬到 GPU 上,加上 block hashing 和 prefix caching,讓 prompt caching 變成現實。系列完結篇,所有的拼圖在這裡拼起來。
1 篇文章
作業系統幾十年前就用 paging 解決了記憶體碎片問題。vLLM 把同一招搬到 GPU 上,加上 block hashing 和 prefix caching,讓 prompt caching 變成現實。系列完結篇,所有的拼圖在這裡拼起來。