agentic-coding - 標籤

Programming 變得面目全非：Karpathy 說 2025 年 12 月是分水嶺

GP-85 2026-02-26 · @karpathy on X

Karpathy 說 coding agents 在 2025 年 12 月突然 work 了——不是漸進式進步，是斷裂式轉變。他花 30 分鐘用一句英文建好 DGX Spark 視訊分析 dashboard，三個月前那是整個週末的工作量。Programming 正在變得面目全非：你不再打字寫 code，你在用英文指揮 AI agents。最高 leverage = agentic engineering。

AI 寫的 Code 看不懂？Linear Walkthrough 讓你的 Vibe Code 變成學習教材

GP-87 2026-02-26 · Simon Willison @simonw

Simon Willison Agentic Engineering Patterns 第三章：Linear Walkthrough 模式。用這個技巧，即使是 vibe-coded 的玩具專案也能變成有價值的學習資料。核心技巧：叫 agent 用 sed/grep/cat 自己抓 code 片段，防止幻覺。

simonw-agentic-patterns simon-willison cognitive-debt ai-agents claude-code best-practices

Andrew Ng：我已經不看 AI 寫的 Code 了 — 當 Python 變成新的 Assembly，「X Engineer」時代來了

MP-122 2026-02-25 · Andrew Ng / The Batch Issue 341

Andrew Ng 在 The Batch 第 341 期公開表示，他不只停止手寫程式碼，更「早就不讀 AI 生成的程式碼了」。他認為開發者應該在更高的抽象層次操作，把程式碼交給 coding agent 管理。同時他觀察到「X Engineer」職位正在浮現 — Recruiting Engineer、Marketing Engineer — 每個業務部門都會有人用 AI 寫軟體。這是 AI 教育界最具影響力的人物，對「開發者未來」發出最激進的宣言。

andrew-ng the-batch future-of-work developer-productivity x-engineer

Anthropic 大反攻：Cowork 企業版全面升級，10+ 產業 Plugin、私有 Marketplace、跨 App 工作流 — 軟體股瞬間反彈

MP-126 2026-02-25 · Anthropic

Anthropic於2/24發布Claude Cowork企業級大更新，增10+產業Plugin、私有Plugin Marketplace及Google Workspace等連接器。曾致軟體股崩盤的Cowork Legal Plugin，這次宣布夥伴後，Salesforce漲4%、Thomson Reuters飆11%、FactSet漲6%。Anthropic從「取代」轉為「合作」。

claude-code cowork enterprise plugins marketplace saas stock-market tech-lead

Anthropic 收購 Vercept — R-CNN 發明者加入團隊，Computer Use 從 15% 飆到 72.5%，UiPath 股價應聲下跌

MP-125 2026-02-25 · Anthropic

Anthropic 今天宣布收購 AI 視覺互動公司 Vercept，把 R-CNN 發明者 Ross Girshick（Google Scholar 引用超過 66 萬次）和共同創辦人 Kiana Ehsani、Luca Weihs 收入麾下。目標：讓 Claude 的 Computer Use 能力從「會操作電腦」進化到「跟人類一樣操作電腦」。OSWorld benchmark 已經從 2024 年底的不到 15% 飆到今天的 72.5%。消息一出，RPA 龍頭 UiPath 股價當天跌了 3.6%——華爾街用真金白銀投票：AI Computer Use 正在吃掉 RPA。

claude-code computer-use acquisition vercept rcnn rpa uipath enterprise

The Atlantic 宣告：後聊天機器人時代來了 — 美國人還在用 ChatGPT 聊天，矽谷已經讓 AI Agent 一次跑五個任務了

MP-118 2026-02-24 · The Atlantic

The Atlantic 長文指出美國人正活在「平行 AI 宇宙」裡——大眾還以為 AI 就是 ChatGPT 聊天，但 tech 圈已經被 Claude Code 和 Codex 等 agentic tool 徹底改變。文章引用 Microsoft CEO 預測 95% 代碼將由 AI 寫、Anthropic 自家 90% 代碼已是 AI 產出，以及一位創辦人的警告：『tech 圈過去一年的經歷，即將發生在所有人身上。』

the-atlantic ai-agents claude-code future-of-work post-chatbot

Claude Code 之父上 Lenny's Podcast：Coding 已經被解決了，軟體工程師這個頭銜今年開始消失

MP-115 2026-02-23 · Boris Cherny (Lenny's Podcast / Business Insider)

Claude Code 之父 Boris Cherny 在 Lenny's Podcast 宣告：coding 對他來說已經被解決了，2026 年「軟體工程師」頭銜將開始消失。他分享了 3 個團隊原則：讓 Claude 做、故意少給人、拼命加速。

claude-code boris-cherny career tech-lead

每個 SaaS 現在都是 API — 不管你願不願意：6 人團隊幹掉 100 人後勤的實戰拆解

MP-112 2026-02-23 · Nicolas Bustamante (@nicbstme)

Fintool 創辦人 Nicolas Bustamante 用自身經驗展示：透過 Agent + API 串接所有 SaaS（Brex、QuickBooks、HubSpot、Stripe），6 人團隊處理了過去 100+ 人才能做的事。他提出 B2A（Business to Agent）概念，並警告沒有好 API 的 SaaS 將被 Agent 繞過甚至取代。

saas api b2a enterprise-strategy tech-lead

寫 Code 變便宜了，然後呢？Simon Willison 的 Agentic Engineering 生存指南

GP-80 2026-02-23 · Simon Willison @simonw

Simon Willison 開了新系列 Agentic Engineering Patterns，教你怎麼跟 Claude Code、Codex 這類 coding agent 好好協作。第一課：寫 code 變便宜了，但寫『好的 code』還是很貴。第二課：紅燈綠燈 TDD 是跟 agent 協作的最強咒語。

ai-agents claude-code codex tdd best-practices simon-willison simonw-agentic-patterns

Claude Code CLI 內建 Git Worktree：平行跑多個 Agent，不再互踩分支

MP-108 2026-02-22 · Claude Code Docs / Boris Cherny

Claude Code CLI 正式把 Git worktree 變成內建能力（`--worktree`）。你可以同時開多個隔離的 Claude session，各自跑不同任務，不會互相覆蓋檔案。對 Tech Lead 來說，這代表多線開發和 AI 協作流程終於能標準化，不用再靠土炮 alias 與手動 branch 切換。

claude-code git worktree productivity tech-lead

Epoch AI 重跑 SWE-bench Verified：分數大漲不一定是模型變強，可能是評測環境變對

MP-109 2026-02-22 · Epoch AI

Epoch AI 更新 SWE-bench Verified 評測流程（v2.x）後，多數模型分數明顯更接近模型開發商自報成績。關鍵改動不是換模型，而是升級工具鏈、修復不穩定任務、調整 scaffold 與環境設定。這提醒工程團隊：benchmark 不只是看模型，還要看評測管線是否可重現。

epoch-ai swe-bench benchmark evaluation tech-lead

Google 發布 Gemini 3.1 Pro：ARC-AGI-2 77.1%，把『高難推理』推進日常開發流程

MP-110 2026-02-22 · Google

Google 發布 Gemini 3.1 Pro（preview），主打更強核心推理能力，並宣稱在 ARC-AGI-2 取得 77.1% 驗證分數。3.1 Pro 同步進入 API、Vertex AI、Gemini App 與 NotebookLM。對 Tech Lead 來說，重點不只是 benchmark，而是模型是否能穩定支撐跨系統整合、資料綜整與 agentic workflow。

google gemini reasoning benchmark tech-lead

OpenClaw 作者用 50 個 Codex 平行審 PR：不用向量資料庫，也能吃下 3,000+ 變更洪流

MP-111 2026-02-22 · Peter Steinberger (@steipete)

OpenClaw 作者 Peter Steinberger 分享他處理大量 PR 的新流程：一次平行啟動 50 個 Codex，先把每個 PR 轉成 JSON 風險與意圖訊號，再集中到單一 session 做去重、關閉、合併決策。他強調在這種規模下，不一定需要向量資料庫；把高品質結構化報告餵進模型上下文，反而更快落地。

openclaw codex pr-review automation tech-lead

Anthropic 推出 Claude Code Security：AI 不只寫程式，還要幫你抓漏洞、提修補

MP-106 2026-02-21 · Anthropic

Anthropic 發布 Claude Code Security（研究預覽）：可在 codebase 中主動找出複雜漏洞、提供修補建議，並以多階段驗證降低誤報。官方表示，團隊使用 Opus 4.6 在開源生產系統中找出 500+ 漏洞，目標是把 AI 攻防能力優先交到防守方手上。

claude-code cybersecurity secure-coding tech-lead

Anthropic 聯手 Infosys：AI Agent 正式進入電信與金融等高監管產業

MP-105 2026-02-21 · Anthropic

Anthropic 與 Infosys 宣布合作，把 Claude 與 Infosys Topaz 整合，鎖定電信、金融、製造、軟體開發等高監管領域。重點不是做 chatbot demo，而是做可長時間執行、多步驟、可治理的 enterprise agent：例如合規報告自動化、風險偵測、legacy 系統現代化與程式交付加速。

claude-code infosys enterprise regulated-industries tech-lead

手機就能跑推理模型？Liquid AI 把 LFM2.5-1.2B 壓進 900MB，邊緣 Agent 時代真的來了

MP-103 2026-02-21 · Liquid AI

Liquid AI 發布 LFM2.5-1.2B-Thinking：1.17B 參數、32K context，可在手機/NPU 裝置以不到 1GB 記憶體執行。官方數據顯示它在多數推理 benchmark 可匹敵或超越 Qwen3-1.7B，且速度更快、輸出 token 更少。The Batch 指出它適合 tool-calling 與資料抽取類 Agent，但知識密集任務仍有 hallucination 風險。

liquid-ai edge-ai on-device small-model benchmark the-batch

Karpathy：App Store 這個概念過時了 — 未來是 AI 即時組裝的一次性 App

MP-100 2026-02-19 · Andrej Karpathy

Karpathy 今天早上想做心肺訓練追蹤，用 Claude Code 花一小時 vibe code 了一個完全客製化的 dashboard：逆向工程 Woodway 跑步機 API、拉數據、建前端。他的結論：App Store 裡那種「從一堆現成 app 中挑一個」的模式過時了。未來是 AI 原生的 sensor + actuator 服務，由 LLM 像膠水一樣即時組裝成高度客製化的一次性 app。一小時只是過渡——最終目標是一分鐘。

karpathy app-store vibe-coding ephemeral-apps ai-native future-of-software

選 AI 不再只看模型 — Ethan Mollick 提出「Model / App / Harness」三層框架，一次搞懂 2026 的 AI 全局

MP-99 2026-02-19 · Ethan Mollick (One Useful Thing)

華頓商學院教授 Ethan Mollick 在最新文章中提出一個簡單但改變遊戲規則的框架：選 AI 工具要看三層 — Model（模型腦袋）、App（使用介面）、Harness（韁繩/工具鏈）。同一個 Claude Opus 4.6，在聊天視窗裡只能閒聊，放進 Claude Code 就能自主寫程式跑測試幾小時不停，裝進 Claude Cowork 就能幫你整理報告操作電腦。框架之外，Mollick 還用 Claude Code 花一小時把 GPT-1 的 1.17 億個參數做成 80 本精裝書並上架販售——當天完售。

ethan-mollick ai-guide models harness claude-code chatgpt gemini framework

SWE-bench 二月大考成績出爐 — Opus 4.5 逆襲 4.6、中國模型佔領半壁江山、GPT-5.3 缺考

MP-97 2026-02-19 · Simon Willison

SWE-bench 官方用同一個 mini-SWE-agent 跑完所有主流模型的 Bash Only 排行榜（Verified 子集，500 題）。結果讓人意外：Claude Opus 4.5（舊版）以 76.8% 險勝 Opus 4.6 的 75.6% 拿下第一、Gemini 3 Flash 和 MiniMax M2.5 並列第二。去除同模型重複後，前十名中有四個中國模型。OpenAI 最強戰力 GPT-5.3-Codex 因為 API 沒開放而缺席。Simon Willison 順手用 Claude for Chrome 幫圖表加上了百分比標籤——這可能是全文最實用的部分。

swe-bench benchmark claude-code gemini minimax chinese-ai openai simon-willison leaderboard

Anthropic 分析了數百萬筆 Claude Code 數據 — 你的 Agent 其實可以跑更久，但你不敢放手

MP-96 2026-02-18 · Anthropic Research

Anthropic 首度公開 Claude Code 和 API 的真實使用數據：最長自主跑動時間三個月內翻倍（45 分鐘以上）、老手有 40% 的 session 全部自動核准、Claude 主動停下來問問題的頻率比人類打斷它還高兩倍——但 73% 的 API 動作仍有人在監督。最驚人的發現：模型能處理的自主程度遠超過用戶實際給予的。Anthropic 稱之為「部署落差」。

claude-code agent-autonomy research data-analysis safety human-oversight trust