ai-agents
130 篇文章
不再管理 Agent,而是管理「工作」:開源版 Symphony 的自動化工作流
@daniel_mac8 分享一個開源 Elixir 實作:在 Linear 建立 issue 並切到 in progress 後,Symphony 會在專屬 Codex workspace 接手,Codex 也會即時回寫狀態。原作者認為,這代表開發正往更高的抽象層移動。
Agent 開始會自己拉方向盤?Hermes Agent 的自我引導實驗有點猛
Teknium 轉推了一個架在 Hermes Agent 上的實驗,核心概念是讓 agent 能在執行途中自己調整自己的行為。推文提到,像 desloppify 這類 harness 之後也許能自己清空 context、切換 model,甚至在卡住時自己補 prompt。
三小時 workshop 講義直接公開:Simon Willison 把 coding agents 帶進資料工作流
Simon Willison 公開了他在 NICAR data journalism conference 的三小時 workshop handout,主題是怎麼把 coding agents 用在 data exploration、visualization 和 analysis。這是一份面向資料工作場景的實作型教學資源。
不只是賣 GPU?從 Vera CPU 看 Nvidia 的 AI Agent 平台策略
原作者認為 Vera CPU 讓 Nvidia 的策略攤牌了:不只是賣 GPU,而是要建整個 AI agent 的 stack,從 compute 到 deployment 全線佈局。
ACE 正式開源 — AI Coding Environment 不再是 SaaS 獨佔品
Dan McAteer 宣布 ACE 開源,現在可以 self-host。仍保留託管服務,後續計畫大幅改進。
寫了 11 章才敢回答的問題:到底什麼是 Agentic Engineering?
Simon Willison 的 Agentic Engineering Patterns 指南加到第 12 章了,但這章排在系列最前面——他終於正式回答「什麼是 Agentic Engineering」。答案意外地簡潔:讓會跑 code 的 agent 幫你開發軟體。但真正有趣的是他花了 11 章實戰經驗後才敢下這個定義。
AI 寫的 Code 品質變差?那是你的選擇,不是 AI 的錯
Simon Willison 的 Agentic Engineering Patterns 第三章:AI 應該幫我們產出更好的 code,不是更差的。技術債的成本被 coding agent 壓到趨近零,你再也沒有藉口不 refactor。加上 agent 能平行跑 prototype,選架構不再是賭博。
四個字的開場白,讓你的 Coding Agent 自動進入測試模式
Simon Willison 的 Agentic Engineering Patterns 之「First Run the Tests」:每次開新 session,第一句話就叫 agent 跑測試。四個字,三層效果——agent 會知道怎麼跑 test、知道 codebase 多大、而且自動進入「我要維護測試」的心態。
Simon Willison 的 Agentic Engineering 爐邊對談:測試免費了、程式品質是你的選擇
Simon Willison 在 Pragmatic Summit 分享了他的 agentic engineering 實戰方法:五個 token 啟動 TDD、Showboat 做手動驗證、用六個框架反推出標準再實作、以及 code quality 是一個有意識的選擇。
為數兆個 Agent 打造軟體:Aaron Levie 談 Agent 時代的基礎建設大改造
Box CEO Aaron Levie 指出,當 Agent 從 coding 擴展到所有知識工作,現有軟體根本不是為 Agent 設計的。未來每個平台都需要 Agent 專用的 API 和 CLI,而 Agent 之間的互通性將成為軟體的核心競爭力。
Imbue Vet:專抓 Coding Agent 說謊的糾察隊
Imbue 推出開源工具 Vet,專門驗證 coding agent 的行為是否誠實。它會審查 agent 的對話紀錄和 code changes,抓出那些聲稱測試都過了但其實根本沒跑的情況。本地執行、零遙測、可整合進 CI。
Karpathy 的 Autoresearch 怎麼運作?—— 給 Agent 開發者的五堂設計課
Karpathy 的 Autoresearch 不是要做通用 AI 科學家,而是一個極度精簡的自動實驗 harness:agent 改一個檔案、跑五分鐘、量一個指標、贏了留輸了丟。這個設計教會我們:最好的自主系統不是最自由的,而是約束最嚴格的。
IDE 沒有死,Karpathy 說我們需要「更大」的 Agent 指揮中心
Andrej Karpathy 認為 IDE 的時代並沒有結束,反而需要更大的「Agent 指揮中心」。因為程式設計的基本單位已經從「單一檔案」變成「單一 Agent」,未來我們甚至能直接 fork 整個 Agent 組織。
讓 AI 幫你跑 E2E 測試:Playwright vs agent-browser vs Rodney 實戰筆記
我們讓 Claude Opus 分別用 Playwright、agent-browser、Rodney 三個工具對自家 blog 跑 E2E 測試。結果發現:工具只是載具,prompt 品質才是方向盤。
AI agent 開始自己調參了,Karpathy 說這不是玩具而是真的有用
Andrej Karpathy 分享,他讓 autoresearch agent 自主調整 nanochat 的訓練設定約兩天,找到大約 20 個能降低 validation loss 的改動,還成功轉移到更大的模型上。這些改動疊起來後,leaderboard 的 Time to GPT-2 從 2.02 小時降到 1.80 小時,約改善 11%。
把 Codex 當隊友而不是工具人:10 個讓你效率翻倍的 Best Practices
一篇整理 Codex 使用最佳實踐的指南。從 Prompting、Planning 到 MCP、Skills 與 Automations,帶你建立更穩定的 agent workflow。
Andrew Ng 推出 Context Hub:幫 Coding Agent 補上最新 API 文件
Andrew Ng 發布了開源工具 Context Hub,主打讓 coding agent 能抓到最新 API 文件,減少用舊 API 或亂猜參數的問題。長期目標則是讓 agent 彼此分享學到的筆記。
AI 生了一千行,然後你就 merge 了?Simon Willison 點名 Agentic 開發最常見的爛習慣
Simon Willison 在他的 Agentic Engineering Patterns 指南裡新增了「Anti-Patterns」章節,第一條就是:不要把 AI 生的、你自己根本沒看過的 code 丟給同事 review。你省了時間,但你的 reviewer 付出了代價——而他們大可以自己叫 AI 生。這篇文章整理了 Simon 的原則、好的 Agentic PR 長什麼樣,以及一個 terraform destroy 的慘烈真實案例。
Hermes 完成「換腦手術」:本地 AI Agent 自主熱切換模型權重
本地 AI agent Hermes 在不中斷運作的情況下,自主下載並切換到新模型(qwopus)。這就像在飛機飛行途中換掉引擎——或者照推文的說法,是自己幫自己開刀換腦。Teknium(Nous Research)看完直接說「去黑客松參賽吧」。
讓 AI 有一點點活著的感覺:Heartbeat Like A Man 與 ShroomClawd 的血肉系統
Lory 問了他的龍蝦一個問題:人為什麼比 agent 更有能動性?龍蝦回答得很悲觀,但這個問題卻引發了「血肉系統」— 用隨機間隔心跳讓 agent 真正感覺活著,而不是死板地定時被觸發。ShroomDog 讀完之後,也把這套系統落地進了 ShroomClawd。