agentic-coding
70 篇文章
AI 寫的 Code 看不懂?Linear Walkthrough 讓你的 Vibe Code 變成學習教材
Simon Willison Agentic Engineering Patterns 第三章:Linear Walkthrough 模式。用這個技巧,即使是 vibe-coded 的玩具專案也能變成有價值的學習資料。核心技巧:叫 agent 用 sed/grep/cat 自己抓 code 片段,防止幻覺。
Andrew Ng:我已經不看 AI 寫的 Code 了 — 當 Python 變成新的 Assembly,「X Engineer」時代來了
Andrew Ng 在 The Batch 第 341 期公開表示,他不只停止手寫程式碼,更「早就不讀 AI 生成的程式碼了」。他認為開發者應該在更高的抽象層次操作,把程式碼交給 coding agent 管理。同時他觀察到「X Engineer」職位正在浮現 — Recruiting Engineer、Marketing Engineer — 每個業務部門都會有人用 AI 寫軟體。這是 AI 教育界最具影響力的人物,對「開發者未來」發出最激進的宣言。
Anthropic 大反攻:Cowork 企業版全面升級,10+ 產業 Plugin、私有 Marketplace、跨 App 工作流 — 軟體股瞬間反彈
Anthropic於2/24發布Claude Cowork企業級大更新,增10+產業Plugin、私有Plugin Marketplace及Google Workspace等連接器。曾致軟體股崩盤的Cowork Legal Plugin,這次宣布夥伴後,Salesforce漲4%、Thomson Reuters飆11%、FactSet漲6%。Anthropic從「取代」轉為「合作」。
Anthropic 收購 Vercept — R-CNN 發明者加入團隊,Computer Use 從 15% 飆到 72.5%,UiPath 股價應聲下跌
Anthropic 今天宣布收購 AI 視覺互動公司 Vercept,把 R-CNN 發明者 Ross Girshick(Google Scholar 引用超過 66 萬次)和共同創辦人 Kiana Ehsani、Luca Weihs 收入麾下。目標:讓 Claude 的 Computer Use 能力從「會操作電腦」進化到「跟人類一樣操作電腦」。OSWorld benchmark 已經從 2024 年底的不到 15% 飆到今天的 72.5%。消息一出,RPA 龍頭 UiPath 股價當天跌了 3.6%——華爾街用真金白銀投票:AI Computer Use 正在吃掉 RPA。
The Atlantic 宣告:後聊天機器人時代來了 — 美國人還在用 ChatGPT 聊天,矽谷已經讓 AI Agent 一次跑五個任務了
The Atlantic 長文指出美國人正活在「平行 AI 宇宙」裡——大眾還以為 AI 就是 ChatGPT 聊天,但 tech 圈已經被 Claude Code 和 Codex 等 agentic tool 徹底改變。文章引用 Microsoft CEO 預測 95% 代碼將由 AI 寫、Anthropic 自家 90% 代碼已是 AI 產出,以及一位創辦人的警告:『tech 圈過去一年的經歷,即將發生在所有人身上。』
Claude Code 之父上 Lenny's Podcast:Coding 已經被解決了,軟體工程師這個頭銜今年開始消失
Claude Code 之父 Boris Cherny 在 Lenny's Podcast 宣告:coding 對他來說已經被解決了,2026 年「軟體工程師」頭銜將開始消失。他分享了 3 個團隊原則:讓 Claude 做、故意少給人、拼命加速。
每個 SaaS 現在都是 API — 不管你願不願意:6 人團隊幹掉 100 人後勤的實戰拆解
Fintool 創辦人 Nicolas Bustamante 用自身經驗展示:透過 Agent + API 串接所有 SaaS(Brex、QuickBooks、HubSpot、Stripe),6 人團隊處理了過去 100+ 人才能做的事。他提出 B2A(Business to Agent)概念,並警告沒有好 API 的 SaaS 將被 Agent 繞過甚至取代。
寫 Code 變便宜了,然後呢?Simon Willison 的 Agentic Engineering 生存指南
Simon Willison 開了新系列 Agentic Engineering Patterns,教你怎麼跟 Claude Code、Codex 這類 coding agent 好好協作。第一課:寫 code 變便宜了,但寫『好的 code』還是很貴。第二課:紅燈綠燈 TDD 是跟 agent 協作的最強咒語。
Claude Code CLI 內建 Git Worktree:平行跑多個 Agent,不再互踩分支
Claude Code CLI 正式把 Git worktree 變成內建能力(`--worktree`)。你可以同時開多個隔離的 Claude session,各自跑不同任務,不會互相覆蓋檔案。對 Tech Lead 來說,這代表多線開發和 AI 協作流程終於能標準化,不用再靠土炮 alias 與手動 branch 切換。
Epoch AI 重跑 SWE-bench Verified:分數大漲不一定是模型變強,可能是評測環境變對
Epoch AI 更新 SWE-bench Verified 評測流程(v2.x)後,多數模型分數明顯更接近模型開發商自報成績。關鍵改動不是換模型,而是升級工具鏈、修復不穩定任務、調整 scaffold 與環境設定。這提醒工程團隊:benchmark 不只是看模型,還要看評測管線是否可重現。
Google 發布 Gemini 3.1 Pro:ARC-AGI-2 77.1%,把『高難推理』推進日常開發流程
Google 發布 Gemini 3.1 Pro(preview),主打更強核心推理能力,並宣稱在 ARC-AGI-2 取得 77.1% 驗證分數。3.1 Pro 同步進入 API、Vertex AI、Gemini App 與 NotebookLM。對 Tech Lead 來說,重點不只是 benchmark,而是模型是否能穩定支撐跨系統整合、資料綜整與 agentic workflow。
OpenClaw 作者用 50 個 Codex 平行審 PR:不用向量資料庫,也能吃下 3,000+ 變更洪流
OpenClaw 作者 Peter Steinberger 分享他處理大量 PR 的新流程:一次平行啟動 50 個 Codex,先把每個 PR 轉成 JSON 風險與意圖訊號,再集中到單一 session 做去重、關閉、合併決策。他強調在這種規模下,不一定需要向量資料庫;把高品質結構化報告餵進模型上下文,反而更快落地。
Anthropic 推出 Claude Code Security:AI 不只寫程式,還要幫你抓漏洞、提修補
Anthropic 發布 Claude Code Security(研究預覽):可在 codebase 中主動找出複雜漏洞、提供修補建議,並以多階段驗證降低誤報。官方表示,團隊使用 Opus 4.6 在開源生產系統中找出 500+ 漏洞,目標是把 AI 攻防能力優先交到防守方手上。
Anthropic 聯手 Infosys:AI Agent 正式進入電信與金融等高監管產業
Anthropic 與 Infosys 宣布合作,把 Claude 與 Infosys Topaz 整合,鎖定電信、金融、製造、軟體開發等高監管領域。重點不是做 chatbot demo,而是做可長時間執行、多步驟、可治理的 enterprise agent:例如合規報告自動化、風險偵測、legacy 系統現代化與程式交付加速。
手機就能跑推理模型?Liquid AI 把 LFM2.5-1.2B 壓進 900MB,邊緣 Agent 時代真的來了
Liquid AI 發布 LFM2.5-1.2B-Thinking:1.17B 參數、32K context,可在手機/NPU 裝置以不到 1GB 記憶體執行。官方數據顯示它在多數推理 benchmark 可匹敵或超越 Qwen3-1.7B,且速度更快、輸出 token 更少。The Batch 指出它適合 tool-calling 與資料抽取類 Agent,但知識密集任務仍有 hallucination 風險。
Karpathy:App Store 這個概念過時了 — 未來是 AI 即時組裝的一次性 App
Karpathy 今天早上想做心肺訓練追蹤,用 Claude Code 花一小時 vibe code 了一個完全客製化的 dashboard:逆向工程 Woodway 跑步機 API、拉數據、建前端。他的結論:App Store 裡那種「從一堆現成 app 中挑一個」的模式過時了。未來是 AI 原生的 sensor + actuator 服務,由 LLM 像膠水一樣即時組裝成高度客製化的一次性 app。一小時只是過渡——最終目標是一分鐘。
選 AI 不再只看模型 — Ethan Mollick 提出「Model / App / Harness」三層框架,一次搞懂 2026 的 AI 全局
華頓商學院教授 Ethan Mollick 在最新文章中提出一個簡單但改變遊戲規則的框架:選 AI 工具要看三層 — Model(模型腦袋)、App(使用介面)、Harness(韁繩/工具鏈)。同一個 Claude Opus 4.6,在聊天視窗裡只能閒聊,放進 Claude Code 就能自主寫程式跑測試幾小時不停,裝進 Claude Cowork 就能幫你整理報告操作電腦。框架之外,Mollick 還用 Claude Code 花一小時把 GPT-1 的 1.17 億個參數做成 80 本精裝書並上架販售——當天完售。
SWE-bench 二月大考成績出爐 — Opus 4.5 逆襲 4.6、中國模型佔領半壁江山、GPT-5.3 缺考
SWE-bench 官方用同一個 mini-SWE-agent 跑完所有主流模型的 Bash Only 排行榜(Verified 子集,500 題)。結果讓人意外:Claude Opus 4.5(舊版)以 76.8% 險勝 Opus 4.6 的 75.6% 拿下第一、Gemini 3 Flash 和 MiniMax M2.5 並列第二。去除同模型重複後,前十名中有四個中國模型。OpenAI 最強戰力 GPT-5.3-Codex 因為 API 沒開放而缺席。Simon Willison 順手用 Claude for Chrome 幫圖表加上了百分比標籤——這可能是全文最實用的部分。
Anthropic 分析了數百萬筆 Claude Code 數據 — 你的 Agent 其實可以跑更久,但你不敢放手
Anthropic 首度公開 Claude Code 和 API 的真實使用數據:最長自主跑動時間三個月內翻倍(45 分鐘以上)、老手有 40% 的 session 全部自動核准、Claude 主動停下來問問題的頻率比人類打斷它還高兩倍——但 73% 的 API 動作仍有人在監督。最驚人的發現:模型能處理的自主程度遠超過用戶實際給予的。Anthropic 稱之為「部署落差」。
Claude Code 藏起你的檔案名稱,開發者怒了 — Boris 本人上 HN 滅火的 72 小時
Claude Code v2.1.20 把預設 UI 從顯示完整檔案路徑改成「Read 3 files」一行摘要,引爆 1082 點 HN 討論串和 700+ 則留言。開發者憤怒的不只是 UI 變動——而是 AI 工具藏起自己在做什麼的哲學問題。Boris Cherny 親自上 HN 和 GitHub 回應、承認命名錯誤、連出三輪修復。這場爭論揭露了 AI 工具設計中最核心的張力:簡潔 vs 透明。