kv-cache - 標籤

LLM Context Tax 避稅指南：13 招讓你的 AI Agent 帳單少一個零

MP-65 2026-02-11 · Nicolas Bustamante (@nicbstme)

每個 token 都是錢、都是延遲、過了某個點還會讓你的 AI 變笨 — 這就是 Context Tax 的三重懲罰。Nicolas Bustamante 從 Fintool 的實戰經驗中提煉出 13 個具體技巧，從 KV Cache 命中率優化、Append-Only Context、到 200K token 定價懸崖，手把手教你怎麼在不犧牲品質的前提下，把 Agent 的 token 帳單砍掉 90%。這不是理論文，這是真金白銀的省錢指南。

LLM 推理的內臟：KV Cache 與記憶體的噩夢（系列 2/3）

GP-32 2026-02-05 · @dejavucoder on bearblog

上一篇教你怎麼省錢，這一篇告訴你為什麼那些招有效。從 LLM 推理的兩個階段（prefill/decode）講起，一路講到 KV Cache 的原理和 GPU 記憶體爆炸的慘劇。（三篇系列第二篇）

prompt-caching llm-inference