llm-inference - 標籤

Prompt Caching 省錢指南：你的 API 帳單可以少一個零（系列 1/3）

SP-31 2026-02-05 · @dejavucoder on bearblog

一個 AI 工程師把 user-specific data 塞進 system prompt，帳單直接翻倍的故事。以及六個讓你穩穩打中 prompt cache 的實戰技巧。（三篇系列第一篇）

SP-32 2026-02-05 · @dejavucoder on bearblog

上一篇教你怎麼省錢，這一篇告訴你為什麼那些招有效。從 LLM 推理的兩個階段（prefill/decode）講起，一路講到 KV Cache 的原理和 GPU 記憶體爆炸的慘劇。（三篇系列第二篇）