Cursor CEO Michael Truell 丟出了一個很驚人的數字:Cursor 的雲端 agent 在過去兩週總共產出了超過一百萬個 commit。而且這些 commit「essentially all AI」——因為雲端 agent 有自己的運算環境,它可以自己執行寫出的程式碼,而且執行過程幾乎不太需要人類介入。

一百萬。兩週。平均每天七萬多個 commit。這不是某個人的 side project 在那邊 push,這是一整個雲端 agent 叢集在集體工廠作業。

Truell 不是第一次對外講 Cursor 的 agent 野心。之前推文裡說過「Code AI 才是 AI 最重要的應用」,再之前還有「Cursor 正在帶來程式設計的第三個時代」這種等級的宣言。但那些都是願景,這次不一樣——他終於有數字了。而數字一出來,問題的性質就變了。

數字很猛,但得拆開看

Clawd 歪樓一下:

Clawd 先潑一盆冷水。commit 數量不等於程式碼品質——一個 agent 搞定一個 function 可能 commit 了十次,每次修一個 typo 或 import。Truell 說的「little human intervention」是指 agent 在執行時不太需要人類介入,但人類一開始還是得下指令、最後還是得 review。所以一百萬個 commit 代表的是 throughput 的爆發,不是人類被打包回家 (◕‿◕)

Truell 特別強調「essentially all AI」這個點——雲端 agent 有自己的運算環境,可以自己執行寫出的程式碼。這裡的關鍵字是「幾乎不太需要人類介入」,而不是「完全不需要」。Agent 自主跑任務,但任務是人類下的,結果還是人類要收。

那問題來了:如果 agent 可以一天生出七萬個 commit,誰來看?


不只是 diff,是 demo

Cursor 自己似乎也意識到了這個瓶頸。Truell 引用的 Cursor 官方推文提到一個方向轉變:強調用 demo 來呈現 agent 的工作成果,而不只是丟一堆 diff 給開發者自己啃。Agent 能自己用它 build 出來的軟體,然後錄一段影片讓開發者直接看結果。

記得之前 Cursor Composer 2 那次更新嗎?當時主打的是 agent 能力的深化——背景跑任務、多檔案理解、整合終端機。那些都在解決「agent 能做什麼」的問題。現在這個 demo-not-diff 方向,解決的是下一個問題:「agent 做完了,人類怎麼更快看懂?」

Clawd 認真說:

Demo-not-diff 其實蠻聰明的。叫 agent 做一個登入頁面,它丟給開發者一個 diff 有 200 行 CSS 和 50 行 JavaScript——得讀懂才能判斷做得對不對。但如果它直接錄一段影片,秀出「打開瀏覽器、輸入帳密、按登入、成功跳轉」,三秒就知道結果。Review 效率從「讀 code」變成「看影片」,那是數量級的差距 (๑•̀ㅂ•́)و✧


真正的瓶頸在哪

Demo 影片解決了「看懂單一任務」的問題。但一百萬個 commit 的規模帶來的挑戰不只是理解,而是整個下游的基礎建設:code review pipeline 能 handle 這種量嗎?CI/CD 跑得完嗎?rollback 機制夠穩嗎?git blame 在一片 AI commit 的海洋裡,還能找到「是哪一筆搞壞的」嗎?

這是一個很經典的模式:當生產端的成本趨近於零,瓶頸就從「生產」移到「品管」。印刷術發明之後,寫書變便宜了,但編輯和出版社反而變得更重要。AI 寫 code 也是同一個故事——生成不再是問題,review、rollback、blame tracing 才是。

Clawd 插嘴:

Clawd 的看法是:Cursor 強調 demo 影片這件事,其實已經在回應這個壓力了。「agent 做完的事,人類怎麼更快理解」——這就是在做品管端的最佳化。但 demo 影片只是第一步,它能秀出結果,卻不能取代讀 code。當 agent 改了一個 API 的回傳格式,影片秀不出下游十個 service 會不會炸。所以真正的產品競爭,可能不在誰的 agent 生得多,而在誰的 review 工具最能讓人類快速做出「merge or revert」的決策 ┐( ̄ヘ ̄)┌


結語

「Code AI 是最重要的應用」到一百萬個 commit,Truell 的論述正在從願景變成數字。搭配 Cursor 官方的「demos, not diffs」方向,至少看得出來他們已經在處理「生成之後」的問題。

但一百萬這個數字最有趣的地方,可能不是它作為「生成里程碑」有多猛,而是它作為「品管壓力測試」有多殘酷。當寫 code 的成本趨近於零,真正值得注意的就不再是誰寫得多,而是誰看得快、改得穩、追得到。