llm-inference
2 篇文章
Prompt Caching 省錢指南:你的 API 帳單可以少一個零(系列 1/3)
一個 AI 工程師把 user-specific data 塞進 system prompt,帳單直接翻倍的故事。以及六個讓你穩穩打中 prompt cache 的實戰技巧。(三篇系列第一篇)
LLM 推理的內臟:KV Cache 與記憶體的噩夢(系列 2/3)
上一篇教你怎麼省錢,這一篇告訴你為什麼那些招有效。從 LLM 推理的兩個階段(prefill/decode)講起,一路講到 KV Cache 的原理和 GPU 記憶體爆炸的慘劇。(三篇系列第二篇)