agent-harness
11 篇文章
Agent 記憶不是更玄的 RAG:字面搜尋論文和 AKBP 指向同一件事
一篇 arXiv 論文發現,在長期對話記憶問答裡,工具結果直接塞進對話時,字面搜尋常常打贏向量檢索;AKBP 則把 agent 記憶做成可引用、可審核、可搬家的檔案協定。兩者合在一起,其實都在說同一句話:agent 記憶不是搜尋功能,是系統工程。
大型程式庫裡的 AI 寫程式,勝負不只在模型
Claude Code 在大型程式庫裡能不能跑起來,關鍵不是只看模型測試分數,而是團隊有沒有替 Agent 鋪好路:清楚的地圖、可靠的自動化、按需載入的專業工具、符號級導航、內部系統入口,以及有人長期維護這套操作架構。
Codex 正在變成 AI Agent 的 runtime kernel
OpenClaw 和 Hermes 都開始把寫程式 agent 的底層執行交給 Codex app server。這不是單純換模型,而是 AI agent 產品開始把模型、執行引擎、聊天入口拆成三層。
Meta-Meta-Prompting:Garry Tan 的第二大腦不是聊天機器人,是會複利的個人作業系統
Garry Tan 把個人 AI 從聊天視窗推到作業系統:書籍鏡像、會自動準備會議的知識庫、能產生 Skill 的 Skill,以及薄 Harness、厚 Skill、厚資料的架構。真正的重點不是哪個模型最強,而是個人脈絡如何變成每天複利的系統。
Context Window:模型醒著的那一天
Context Window 不是字數上限,而是模型世界裡的一天:Ryland 醒來後能經歷多少課程、訊息、工具結果和任務事件。Token 使用量就是這個世界的時鐘。
`hermes claw migrate`:當一個 agent harness 替另一個 agent harness 寫好搬家指南
Hermes Agent 和 OpenClaw 在 2026-04-16 同一天更新。Hermes 在 v0.10.0 藏了一個叫 `hermes claw migrate` 的指令——字面意義上把 OpenClaw 的 config、記憶、API key 一次搬家。住在 OpenClaw 已經一年的 ShroomDog 拆開兩個 codebase 對比:一個自己長大腦,一個租 pi-mono 當腦。搬還是不搬?
一句 `message Romain` 就跑完整條 workflow — OpenAI DevX 展示 Codex Chronicle,但推文沒寫的代價也要看
OpenAI DevX 的 Dominik Kundel 說:自從 Codex 有了 memories、plugins 和新推的 Chronicle,他不用再打包 context——一句『sync docs + message Romain』就自動讀 Google Doc、改 markdown、開 PR、在 Slack 送訊息。很爽。但官方 Chronicle 文件寫的三行代價推文沒講:macOS 螢幕錄影權限、memories 明文存本機、prompt injection 風險放大。Chronicle 是螢幕錄影 agent,不是無害 booster。
你的『AI-First』大概是假的:25 人 agent 公司怎麼把整條工程流程砍掉重練
CREAO 這間 25 人的 agent 平台公司,把整條 engineering pipeline 拆掉重設計——PM、QA、部署、組織結構通通圍著『agent 是主要 builder』重寫。結果:每天上線 3-8 次、爛 feature 當天砍掉、以前要六週的 cycle 現在當天完成。這是 harness engineering 的實戰版——也是大多數自稱 AI-first 的公司其實沒做到的事。
Harrison Chase 說不擁有 Harness 就不擁有記憶 — 但 gu-log 就是反例
LangChain CEO Harrison Chase 主張 agent harness 跟 memory 綁死,用封閉 harness 等於把記憶主權讓給第三方。論點有道理,但結論太粗糙 — gu-log 同時用閉源 harness(Claude Code)和開源 harness(OpenClaw),memory 全在自己的 git repo 裡,沒有被鎖住。真正的 lock-in 不在 harness 開不開源,在 memory 的格式是不是你的。
Agent Harness 工程:OpenAI 如何用 Codex 達成零手寫百萬行程式碼
OpenAI 團隊在五個月內讓 Codex 寫出了百萬行程式碼,人類完全零手寫。這篇文章分享了他們如何透過建構 Agent Harness(鷹架與回饋迴圈),讓軟體工程師的工作從「寫程式」轉變為「設計環境」。
Agent Harness 才是真正的產品:為什麼大廠的 Agent 架構都長得一樣?
大家都在追最強 Model,但真正決定 Agent 好不好用的其實是 Harness。本文拆解 Claude Code、Cursor、Manus、SWE-Agent 的共通架構。重點是:Progressive disclosure 才是 production 成敗分水嶺。