code-review
8 篇文章
Claude Code 找 99%+ bug,工程師再做 sanity check
Boris Cherny 表示,他們會先用 Claude Code 找出 99%+ 的 bug,再由工程師做 sanity check,確認沒有漏掉明顯問題。
Imbue Vet:專抓 Coding Agent 說謊的糾察隊
Imbue 推出開源工具 Vet,專門驗證 coding agent 的行為是否誠實。它會審查 agent 的對話紀錄和 code changes,抓出那些聲稱測試都過了但其實根本沒跑的情況。本地執行、零遙測、可整合進 CI。
AI 生了一千行,然後你就 merge 了?Simon Willison 點名 Agentic 開發最常見的爛習慣
Simon Willison 在他的 Agentic Engineering Patterns 指南裡新增了「Anti-Patterns」章節,第一條就是:不要把 AI 生的、你自己根本沒看過的 code 丟給同事 review。你省了時間,但你的 reviewer 付出了代價——而他們大可以自己叫 AI 生。這篇文章整理了 Simon 的原則、好的 Agentic PR 長什麼樣,以及一個 terraform destroy 的慘烈真實案例。
Agentic Engineering 的最終 Boss:消滅 Code Review
swyx 認為 Agentic Engineering 的最終挑戰在於消除人類 Code Review 的瓶頸,SDLC 即將迎來天翻地覆的改變。
Canva CTO:我的工程師早上起床,AI Agent 已經把昨晚的 Code 寫好了
Canva CTO Brendan Humphreys 揭露了一個讓人重新思考「工程師是什麼」的工作模式:工程師下班前寫好詳細指令,AI Agent 整夜執行,早上起來成果已經準備好了。Senior Engineer 的日常變成了「大部分在做 Review」。Anthropic CEO Dario Amodei 把這叫做軟體工程的「Centaur Phase」。但 Accenture 的調查顯示,不到 10% 的組織真正重新設計了工作來配合 AI。另一間 6 人新創 Cora 用 Agent 產出了過去需要 20-30 人才能完成的 code 量。AI 在以指數速度進步,而你不是。
33,000 筆 Agent PR 數據的殘酷真相:Codex 贏麻了、Copilot 慘兮兮,你的 Monorepo 可能撐不住
Drexel 和 Missouri 大學的研究團隊分析了 GitHub 上 33,596 筆由五大 coding agent 提交的 PR。結果?整體 merge rate 71%,但差距驚人:Codex 83%、Claude Code 59%、Copilot 只有 43%。更恐怖的是失敗模式:Agent PR 被拒的第一名原因不是 code 寫得爛,而是「根本沒人理」。LeadDev 同步報導指出,這場 Agent PR 大洪水正在壓垮企業的 Monorepo 和 CI 基礎設施。
自我修復的 PR — Devin 的 Autofix Loop 讓人類只需要做最後的判斷
Cognition 推出 Devin Autofix,讓 review bot 的 comment 自動觸發修復 → CI 重跑 → loop 直到乾淨,人類只需要做最後的 architecture 判斷。核心洞察:單一 agent 是工具,agent + reviewer loop 才是系統,而系統會複利成長。
GitHub Agent HQ:讓 Claude、Codex、Copilot 在同一個 PR 裡打群架 — 多 Agent 協作時代正式開打
GitHub 正式推出 Agent HQ 的多 Agent 支援:Copilot Pro+ 和 Enterprise 用戶現在可以直接在 GitHub 和 VS Code 裡同時跑 Claude、Codex 和 Copilot,讓不同 AI 用不同思路攻同一個問題。不用切工具、不用複製貼上 context,所有產出直接變成 Draft PR。對 Tech Lead 來說,這可能是 Code Review 流程的一次典範轉移。