Agent 真正難的不是模型,而是工程現場

一篇從控制迴圈、Harness、上下文工程、工具設計、記憶、多 Agent、評測、追蹤到安全邊界的 Agent 工程指南。核心不是把模型換貴,而是把任務、狀態、驗證與工具邊界做成機器能穩定執行的系統。

Skillify:每次 agent 翻車都變成結構性不可能重來——Garry Tan 的 10 步 checklist

Garry Tan 這週 agent 翻兩次車:明明答案就在本地檔案卻跑去打 API、時區心算算錯 60 分鐘。兩個病同一個根:該用 deterministic 腳本的事情丟到 latent space 去推理。Garry 的解法叫 skillify——每次失敗都寫進一個 SKILL.md、配一支腳本、配一套 test + eval + resolver。10 步 checklist 一次跑完,bug 就結構性不能重現。順便鞭 LangChain 募了一堆錢只給工具沒給菜單。

Anthropic 揭露 AI Benchmark 的骯髒秘密 — 你看到的排行榜可能只是「比誰的電腦大台」

Anthropic 發現 agentic coding benchmark 的分數差距,可能不是模型能力差異,而是跑測試的硬體配置不同。在 Terminal-Bench 2.0 上,最窮和最富的硬體設定差了整整 6 個百分點。下次看到排行榜差 2-3% 就宣稱「我們贏了」的,先打個問號。