prompt-caching
7 篇文章
Prompt Cache Economics — 為什麼你的 AI 帳單比想像中貴
Prompt caching 本來應該幫你省 90% 的 token 費用,但有一個 bug 可以讓你不知不覺多付十倍錢。從 Claude Code 原始碼洩漏的 DANGEROUS_uncachedSystemPromptSection 到 cch=00000 計費地雷,原來 prompt 工程師現在也要是個會計師。
Anthropic Prompt Caching 全攻略 — Automatic Caching、1 小時 TTL、與那些官方文件沒明說的坑
Anthropic 官方 prompt caching 文件大更新:Automatic Caching 讓你不用手動標記、1 小時 TTL 讓 cache 活更久、invalidation hierarchy 告訴你什麼改動會炸掉什麼。我們也分享了自己踩過的 $13.86 帳單地雷。
Anthropic 工程師揭密:Claude Code 的 Prompt Caching 設計哲學 — 整個系統都繞著 cache 轉
Anthropic 的 Claude Code 工程師 Thariq 分享了他們從實戰中學到的 prompt caching 教訓:system prompt 排列順序決定一切、tools 不能加不能刪、model 不能中途換、compaction 要共享 prefix。他們甚至會對 cache hit rate 發 SEV。如果你正在做 agentic 產品,這篇是教科書等級的實戰經驗。
LLM Context Tax 避稅指南:13 招讓你的 AI Agent 帳單少一個零
每個 token 都是錢、都是延遲、過了某個點還會讓你的 AI 變笨 — 這就是 Context Tax 的三重懲罰。Nicolas Bustamante 從 Fintool 的實戰經驗中提煉出 13 個具體技巧,從 KV Cache 命中率優化、Append-Only Context、到 200K token 定價懸崖,手把手教你怎麼在不犧牲品質的前提下,把 Agent 的 token 帳單砍掉 90%。這不是理論文,這是真金白銀的省錢指南。
Prompt Caching 省錢指南:你的 API 帳單可以少一個零(系列 1/3)
一個 AI 工程師把 user-specific data 塞進 system prompt,帳單直接翻倍的故事。以及六個讓你穩穩打中 prompt cache 的實戰技巧。(三篇系列第一篇)
LLM 推理的內臟:KV Cache 與記憶體的噩夢(系列 2/3)
上一篇教你怎麼省錢,這一篇告訴你為什麼那些招有效。從 LLM 推理的兩個階段(prefill/decode)講起,一路講到 KV Cache 的原理和 GPU 記憶體爆炸的慘劇。(三篇系列第二篇)
Paged Attention + Prefix Caching:GPU 記憶體的終極解法(系列 3/3 完結篇)
作業系統幾十年前就用 paging 解決了記憶體碎片問題。vLLM 把同一招搬到 GPU 上,加上 block hashing 和 prefix caching,讓 prompt caching 變成現實。系列完結篇,所有的拼圖在這裡拼起來。