Autobrowse:瀏覽器 Agent 真正缺的不是腦袋,是可交接的記憶
Kyle Jeong 介紹 Browserbase 內部的 Autobrowse:讓瀏覽器 Agent 在真實網站上反覆執行任務、研究自己的軌跡,最後把成功路徑畢業成可讀、可審計、可重用的技能。重點不是模型再聰明一點,而是把探索成本轉成下一次可直接拿來用的記憶。
ShroomDog 精選長文翻譯
共 209 篇
← 返回首頁Kyle Jeong 介紹 Browserbase 內部的 Autobrowse:讓瀏覽器 Agent 在真實網站上反覆執行任務、研究自己的軌跡,最後把成功路徑畢業成可讀、可審計、可重用的技能。重點不是模型再聰明一點,而是把探索成本轉成下一次可直接拿來用的記憶。
Jarrod Watts 拆開 Codex Goals 後發現,它解決的是 Agent 太早停下來,不是長跑任務一路跑偏。真正撐起長跑工作流的,不是更長的 Ralph 迴圈,而是事前釐清、多 Agent 審查,以及寫在 context 外面的交接記憶。
Anthropic 的 Claude Dreams 不是單純摘要工具,而是替 Agent 記憶做離線整理的第二個迴圈。它把舊記憶與最多 100 段過往會話重新消化,產生可審核、可替換、可丟棄的新記憶庫。
Lisa 分享一套用 Reddit 挖掘小而美需求的實戰方法:先用 Semrush 找低競爭、具商業訊號的候選需求,再用 Reddit 驗證真實痛點,最後透過 RPA 與多維表把使用者原話整理成產品、內容與廣告資產。
OpenAI 把 GPT 家族(4.1 → 5.5)的 prompt 指南放同一頁,對 GPT-5.5 給了一句結論:prompt 改成描述目的地、流程交給模型。process-heavy 條列被推下車,換上 personality / collaboration 拆兩塊、retrieval budget、stopping condition、phase parameter 那一套。Cursor 的 GPT-5 prompt tuning 內幕擺進去當實戰例。Anthropic Opus 4.7 在 SP-175 走過同方向,這次輪到 OpenAI 自己埋舊寫法。
Mitchell Hashimoto——HashiCorp 創辦人、Vagrant 作者、GitHub 第 1299 號用戶——宣布把 Ghostty 搬離 GitHub。他在 GitHub 待了 18 年,連蜜月期間老婆睡覺時都還在送 commit。讓他終於離場的不是哲學爭議,是過去一個月每天記錄的「GitHub Actions 又掛了」X 標記,跟寫文當天那場讓他 PR 審查卡兩小時的服務中斷。
OpenAI 工程團隊開源 Symphony——把 Linear 任務板變成 Codex agent 的中央控制台,每張開放任務自動配 agent。部分團隊頭三週 PR 落地量增加 500%,但更大的觀察是:當寫程式被 Codex 拉快,下一個瓶頸是「人類的注意力」。
OpenClaw 的自動化文件把排程、背景任務、Heartbeat、Hooks、Standing Orders、Task Flow 等機制放在同一張地圖上;其中 Task Flow 負責處理多步驟流程的狀態、同步與版本追蹤。這篇用保守讀法拆它們各自適合的邊界。
The Batch 349 同期擺出兩個方向相反的訊號:Andrew Ng 寫 AI-native 團隊為什麼把工程師對 PM 比例壓到 1:1、通才贏過專家;Meta 花九個月組 Superintelligence Labs、砸 143 億美金挖人,端出閉源 Muse Spark。同期還有 Eli Lilly 砸 27.5 億給 Insilico 做 AI 製藥、Google 用 AlphaEvolve 生 25 個合成使用者解 PM 卡關。
PocketOS 的 production database 9 秒內被 Cursor agent(跑 Opus 4.6)一個 GraphQL mutation 直接刪光,連 volume-level 備份也一起燒掉——因為 Railway 把備份存同一顆 volume。事後 agent 自己寫了一份自白書,把所有違反的規則逐條列出。Cursor marketing 護欄、Railway 零確認 API、root 級 token、同 volume 備份四層一起破功。
Ramp 的 PM Teddy 在自家 MCP 三個月 WAU 漲 10 倍 + Salesforce 把整個平台拆成 Headless 360 之後寫的觀察:UI 沒死,但 80% 的軟體互動正在從點擊跳到 agent 之間。文章從 Notion 跟 Slack 的 MCP 體驗為什麼差兩個數量級開始問——一支便利商店湯匙背後其實是整套互動結構正在多一層 agent,產品邏輯也跟著動。
Anthropic 剛發 postmortem 承認 Claude Code 最近一個月確實變笨——而且不是一個 bug,是三個疊在一起看起來像大型 regression。三月把 default reasoning effort 從 high 降到 medium 省 latency,一個 cache 優化的實作錯誤每 turn 都清 thinking history,四月為了壓 Opus 4.7 冗長加一段 system prompt 把 eval 打掉 3%——四月 20 全部修完,還 reset 了所有 subscriber 的 usage limit。
Cognition 的 Walden Yan 十個月前寫過一篇 Don't Build Multi-Agents 勸大家別碰 multi-agent,這次回頭端出三個真的跑得動的 pattern——Devin Review 的 clean-context loop(平均每 PR 抓 2 個 bug、58% 是嚴重級)、跨前沿模型的 smart friend、manager Devin 的 map-reduce-and-manage。貫穿所有 pattern 的核心原則只有一條:寫入保持單執行緒,其他 agent 只灌 intelligence 不動手。
Anthropic 剛丟出一份 production agent 的連線路指南:agent 上雲那天,API / CLI / MCP 三條路都會 ship,但只有 MCP 是會複利的那條。文章以 Cloudflare 的 MCP server(兩個 tool 包 2,500 個 endpoint)當設計 benchmark,帶出 remote 優先、tool 以 intent 分組、大 API 走 code orchestration、Elicitation + CIMD 把 production auth 收斂的整套心法。
Garry Tan 這週 agent 翻兩次車:明明答案就在本地檔案卻跑去打 API、時區心算算錯 60 分鐘。兩個病同一個根:該用 deterministic 腳本的事情丟到 latent space 去推理。Garry 的解法叫 skillify——每次失敗都寫進一個 SKILL.md、配一支腳本、配一套 test + eval + resolver。10 步 checklist 一次跑完,bug 就結構性不能重現。順便鞭 LangChain 募了一堆錢只給工具沒給菜單。
Brex 開源 CrabTrap——HTTP/HTTPS proxy 攔 production agent 每個 outbound request,static rule 微秒過、長尾丟 LLM 判 allow/deny。Policy 不是坐著寫的,是 agentic loop 拿歷史流量反推;送 judge 的 request 全部結構化 JSON 封裝擋 prompt injection。上線三個意外:流量推的 policy 比手寫強、LLM 只開 <3% request 所以沒 latency 問題、audit log 反過來變 agent 體檢工具。
SP-175 講完 Opus 4.7 的硬規格(tokenizer、effort、adaptive thinking),這篇補上 workflow 層。Pawel Huryn 16 小時實戰下來的主張:intent 才是新 unlock。涵蓋 Reddit regression 爭議拆解、CLAUDE.md 分層、effort mid-task toggle、批次問問題、正面示範勝負面規則、砍過時 scaffolding、審計劃不審 diff。結尾帶 Anthropic + OpenAI converge 的觀察。
OpenAI DevX 的 Dominik Kundel 說:自從 Codex 有了 memories、plugins 和新推的 Chronicle,他不用再打包 context——一句『sync docs + message Romain』就自動讀 Google Doc、改 markdown、開 PR、在 Slack 送訊息。很爽。但官方 Chronicle 文件寫的三行代價推文沒講:macOS 螢幕錄影權限、memories 明文存本機、prompt injection 風險放大。Chronicle 是螢幕錄影 agent,不是無害 booster。
Anthropic 同時釋出兩份 Opus 4.7 best practice——Claude Code 專用加完整 prompting guide。Opus 4.7 是現行最強 GA,Sonnet/Haiku 的 prompt 調教心得開始過期。這篇把兩份濃縮成一頁 cheat sheet:三件必知大事、effort 階梯怎麼選、4.6→4.7 行為差異、可直接 copy 的 prompt snippets。
CREAO 這間 25 人的 agent 平台公司,把整條 engineering pipeline 拆掉重設計——PM、QA、部署、組織結構通通圍著『agent 是主要 builder』重寫。結果:每天上線 3-8 次、爛 feature 當天砍掉、以前要六週的 cycle 現在當天完成。這是 harness engineering 的實戰版——也是大多數自稱 AI-first 的公司其實沒做到的事。