vllm - 標籤 - gu-log

Paged Attention + Prefix Caching：GPU 記憶體的終極解法（系列 3/3 完結篇）

GP-33 2026-02-05 · @dejavucoder on bearblog

作業系統幾十年前就用 paging 解決了記憶體碎片問題。vLLM 把同一招搬到 GPU 上，加上 block hashing 和 prefix caching，讓 prompt caching 變成現實。系列完結篇，所有的拼圖在這裡拼起來。