ai-agents
130 篇文章
別讓 Codex 教你:用 5 步把 AI 變成學習教練
用 Codex 學新工具時,最糟的用法是叫它上課。比較好的方法是叫它幫你找入口、畫粗略地圖、設計最小練習,再逼你講回來並留下麵包屑。
Codex 不只是寫程式了 — 它正在變成電腦工作的作業系統
Codex 的重點正在從「幫工程師改程式」往外擴張:持久 thread、語音、排隊、瀏覽器、MCP、桌面操作、自動化、側邊欄與共享記憶,組成的是一套能把電腦工作從指令推到成果審查的系統。
AI Agent 不是有目標就夠了
OpenAI 和 Anthropic 都把 /goal 類能力推進 coding agent,但目標只解決一小塊問題。真正能讓 agent 安全自動工作的,是策略、限制、健康指標、自治邊界與停止規則。
如果 Token 不再是限制:OpenClaw 的常駐 Agent 實驗
Peter Steinberger 說,OpenClaw 長期在雲端跑約一百個 Codex。重點不是炫耀花費,而是在測試:如果 Token 成本不再是主要限制,軟體團隊可以把審查、分流、安全、重現、benchmark 和會議後續都變成常駐 Agent 工作。
語音 Agent 的記憶,比想像中更難
語音 Agent 不能把文字 Agent 的記憶架構直接搬過來用。Manthan Gupta 拆解語音記憶的核心難題:延遲預算太小、語音轉錄太髒、通話身份常常冷啟動,真正可行的做法是把昂貴的記憶工作移出回應路徑。
Meta-Meta-Prompting:Garry Tan 的第二大腦不是聊天機器人,是會複利的個人作業系統
Garry Tan 把個人 AI 從聊天視窗推到作業系統:書籍鏡像、會自動準備會議的知識庫、能產生 Skill 的 Skill,以及薄 Harness、厚 Skill、厚資料的架構。真正的重點不是哪個模型最強,而是個人脈絡如何變成每天複利的系統。
替 agent 蓋產品 — Ramp PM 從一支便利商店湯匙開始講
Ramp 的 PM Teddy 在自家 MCP 三個月 WAU 漲 10 倍 + Salesforce 把整個平台拆成 Headless 360 之後寫的觀察:UI 沒死,但 80% 的軟體互動正在從點擊跳到 agent 之間。文章從 Notion 跟 Slack 的 MCP 體驗為什麼差兩個數量級開始問——一支便利商店湯匙背後其實是整套互動結構正在多一層 agent,產品邏輯也跟著動。
給 agent 請一個 bouncer:Brex 開源 CrabTrap,用 LLM 當門神攔每一個 outbound request
Brex 開源 CrabTrap——HTTP/HTTPS proxy 攔 production agent 每個 outbound request,static rule 微秒過、長尾丟 LLM 判 allow/deny。Policy 不是坐著寫的,是 agentic loop 拿歷史流量反推;送 judge 的 request 全部結構化 JSON 封裝擋 prompt injection。上線三個意外:流量推的 policy 比手寫強、LLM 只開 <3% request 所以沒 latency 問題、audit log 反過來變 agent 體檢工具。
你的『AI-First』大概是假的:25 人 agent 公司怎麼把整條工程流程砍掉重練
CREAO 這間 25 人的 agent 平台公司,把整條 engineering pipeline 拆掉重設計——PM、QA、部署、組織結構通通圍著『agent 是主要 builder』重寫。結果:每天上線 3-8 次、爛 feature 當天砍掉、以前要六週的 cycle 現在當天完成。這是 harness engineering 的實戰版——也是大多數自稱 AI-first 的公司其實沒做到的事。
Anthropic 拆了自己的 Agent 架構 — 大腦跟手分開放,結果快了 90%
Anthropic 公開 Managed Agents 的架構演進:把 session、harness、sandbox 三件事拆開,從「寵物」變「牛群」。結果 p95 的 time-to-first-token 降了超過 90%,還順便解決了安全性和可擴展性的問題。
Midjourney 工程師開源了一套不用 CSS 的排版引擎 — 600 倍速度碾壓瀏覽器 reflow
Midjourney 工程師開源了一個純 TypeScript 文字測量演算法,完全繞過瀏覽器 CSS reflow,排版速度快 600 倍。因為 AI agent 動態生成 UI 時,30 年前設計的瀏覽器排版管線根本跟不上。
九成的人不需要 Multi-Agent — Anthropic 教你什麼時候才該拆
Anthropic 官方指南拆解 multi-agent 系統的三個真正適用場景(context 污染、平行化、專業化),以及為什麼大多數情況下一個 agent 就夠了。附帶 context-centric 拆分法和 verification subagent pattern 的實戰建議。
Harrison Chase 說不擁有 Harness 就不擁有記憶 — 但 gu-log 就是反例
LangChain CEO Harrison Chase 主張 agent harness 跟 memory 綁死,用封閉 harness 等於把記憶主權讓給第三方。論點有道理,但結論太粗糙 — gu-log 同時用閉源 harness(Claude Code)和開源 harness(OpenClaw),memory 全在自己的 git repo 裡,沒有被鎖住。真正的 lock-in 不在 harness 開不開源,在 memory 的格式是不是你的。
從 Nontechnical AF 到 Technical AF:一個 PM 用三招讓 AI agent 推爆 50 萬行 code
一個去年 11 月前還是 nontechnical PM 的作者,用三招(比喻造認知、網路腦工作流、當個好 manager)把 AI coding agent 練成工程團隊,累積推了五十萬行 production code,Weave 平台非技術人員第一名。最後的 punchline:2026 年做產品的門檻不是技術,是 agency。
Agent 不是笨,是瞎——agent-browser 讓 Claude Code 從 7 分飆到 19 分
大部分 agent 失敗不是推理問題,是 fetch 問題。同一個 Claude Code,換掉內建 WebFetch 改用 agent-browser,在 Agent Reading Test 上從 7/25 跳到 19/25。同模型、同 prompt,差別只在「拿到的網頁內容是不是真的」。
Karpathy:AI 能力認知斷層 — 兩群人活在平行宇宙
Karpathy 指出 AI 能力認知出現巨大斷層:一群人還在嘲笑 ChatGPT 的笨回答,另一群人已經看著 AI agent 在一小時內重構整個 codebase。兩邊講的是同一個技術,卻活在完全不同的現實裡。
Anthropic 把蓋 Agent 最無聊的部分全包了 — Managed Agents 公測上線
Anthropic 發佈 Claude Managed Agents 公測版 — 一套 composable APIs,sandboxed 執行、state management、權限控管、multi-agent 協調通通幫處理好。Notion、Rakuten、Sentry 等團隊已經在用,從幾個月的基建壓縮到幾天就上線。
Simon Willison 的 AI 現況報告 — 拐點已過、暗黑工廠要來了、中年工程師最慘
Django 共同創作者 Simon Willison 上 Lenny's Podcast 做了一場 AI 現況總盤點:2025 年 11 月是真正的拐點、coding agent 讓他 11 點就燒乾、Dark Factory 時代即將到來、中年工程師是最慘的那群人 — 還有一個他稱為「致命三連」的安全隱患。
Super IC 時代 — 一個人 + AI 大軍,幹掉整個部門
AI 時代最值錢的人不是某個領域的頂尖專家,而是能指揮一支 AI agent 大軍、一個人走完整條產品線的 Super IC。從 IC 到 Generalist Orchestrator 的轉型正在發生。
Karpathy 的痛點不是寫 code — 是部署那堆鬼東西
Karpathy 發現 vibe coding 寫 code 超爽,但部署才是地獄。他和 Stripe CEO Patrick Collison 的對話揭示了下一個戰場:整個 DevOps 生命週期都必須變成 code,AI agent 才能真正接管。