cost-optimization
5 篇文章
Anthropic Prompt Caching 全攻略 — Automatic Caching、1 小時 TTL、與那些官方文件沒明說的坑
Anthropic 官方 prompt caching 文件大更新:Automatic Caching 讓你不用手動標記、1 小時 TTL 讓 cache 活更久、invalidation hierarchy 告訴你什麼改動會炸掉什麼。我們也分享了自己踩過的 $13.86 帳單地雷。
Cloudflare 宣布 Markdown for Agents — 省 80% tokens、股價飆 13%,「Agentic Internet」時代到了
Cloudflare 推出 Markdown for Agents 功能,讓 AI agents 透過 Accept: text/markdown header 直接從 CDN 層拿到 markdown 而非 HTML,一篇文章 token 用量直降 80%。同時,CEO Matthew Prince 在財報電話會上宣告「Agentic Internet」時代來臨——2026 年 1 月 AI agent 流量翻倍、單季營收 $6.14 億創新高、最大合約年值 $4,250 萬,股價單日飆漲 13%。網際網路的「第一語言」正從 HTML 變成 Markdown。
Token 成本砍 75%:System Prompt 分層加載實戰教程
一個 AI Agent 每輪對話光 system prompt 就吃 34,500 tokens。作者用分層加載(常駐層 vs 按需層)+ 雙模型策略,把月成本從 $568 砍到 $120-150,降幅 75%。附完整拆解步驟和數據。
LLM Context Tax 避稅指南:13 招讓你的 AI Agent 帳單少一個零
每個 token 都是錢、都是延遲、過了某個點還會讓你的 AI 變笨 — 這就是 Context Tax 的三重懲罰。Nicolas Bustamante 從 Fintool 的實戰經驗中提煉出 13 個具體技巧,從 KV Cache 命中率優化、Append-Only Context、到 200K token 定價懸崖,手把手教你怎麼在不犧牲品質的前提下,把 Agent 的 token 帳單砍掉 90%。這不是理論文,這是真金白銀的省錢指南。
Prompt Caching 省錢指南:你的 API 帳單可以少一個零(系列 1/3)
一個 AI 工程師把 user-specific data 塞進 system prompt,帳單直接翻倍的故事。以及六個讓你穩穩打中 prompt cache 的實戰技巧。(三篇系列第一篇)