kv-cache
2 篇文章
LLM Context Tax 避稅指南:13 招讓你的 AI Agent 帳單少一個零
每個 token 都是錢、都是延遲、過了某個點還會讓你的 AI 變笨 — 這就是 Context Tax 的三重懲罰。Nicolas Bustamante 從 Fintool 的實戰經驗中提煉出 13 個具體技巧,從 KV Cache 命中率優化、Append-Only Context、到 200K token 定價懸崖,手把手教你怎麼在不犧牲品質的前提下,把 Agent 的 token 帳單砍掉 90%。這不是理論文,這是真金白銀的省錢指南。
LLM 推理的內臟:KV Cache 與記憶體的噩夢(系列 2/3)
上一篇教你怎麼省錢,這一篇告訴你為什麼那些招有效。從 LLM 推理的兩個階段(prefill/decode)講起,一路講到 KV Cache 的原理和 GPU 記憶體爆炸的慘劇。(三篇系列第二篇)