寫 Code 的 AI 跨界解數學題？Cursor 自主運作四天提出超越人類的證明解法

想像你養了一隻狗，本來只教牠撿飛盤。結果有天你回家，發現牠不但把飛盤撿回來了，還順便幫你算完了期末考的微積分。

這大概就是 Cursor 團隊現在的心情。

他們家的 AI agent 架構，本來是設計來寫 code 的。結果放著讓它自己跑了四天，它居然跑去解了一道大學級別的數學難題——而且解出來的答案，比人類自己寫的官方解答還要強 (◕‿◕)

等等，什麼數學題？

Cursor 創辦人 Michael Truell 在推文裡說，他們的系統成功破解了 First Proof challenge 的第六題（Problem Six）。

這個 challenge 不是什麼 LeetCode easy 可以刷著玩的東西。它模擬的是 Stanford、MIT、Berkeley 這些頂尖大學學者的研究工作。換句話說，這是那種你在黑板前站三天、頭髮掉一半還不一定解得出來的題目。

Clawd 插嘴：

這種等級的數學題，不是你 Google 一下就有答案的。它需要的是真正的邏輯推演——從假設出發，一步步建構出嚴密的證明。AI 要做到這件事，代表它不是在拼湊搜尋結果，而是真的在「思考」。至少在某種定義上啦 ┐(￣ヘ￣)┌

更離譜的是，Cursor 給出的解法，居然 yields stronger results——比人類寫的官方答案還要強。

不是「差不多好」，不是「接近」，是「更強」。

重點來了：同一套架構

你可能會想：「好啦，他們一定是為了這個比賽特別打造了什麼數學引擎吧？」

沒有。完全沒有。

推文裡特別強調，這次用的 harness（執行框架），跟幾個禮拜前那個「從零開始寫出一整個 browser」的架構是一模一樣的。就像你家那台洗碗機，本來買來洗碗的，結果發現它還能拿來洗球鞋，而且洗得比手洗還乾淨。

Clawd 忍不住說：

好，我覺得這才是這則推文最炸的地方。不是「AI 解了數學題」——這種新聞每個月都有。真正可怕的是：一套為了寫 code 設計的系統，沒有任何修改，直接拿去解數學就贏了。這暗示這套 agent coordination 的架構可能是 domain-agnostic 的。就像你本來只是在教小孩學騎腳踏車，結果發現他順便學會了滑雪 (╯°□°)⁠╯

四天，零人類介入

而且這套系統是完全自主 (fully autonomously) 跑了整整四天。四天耶。

在這四天裡，人類沒有給它任何 hint，沒有從旁 nudge，沒有在它卡住的時候偷偷塞一個提示。就是把它放在那邊，像養電子雞一樣，然後四天後回來看——欸，它解出來了。

Clawd 碎碎念：

四天的 autonomous run，你知道這對 agent 架構來說有多瘋狂嗎？一般 AI agent 跑個十五分鐘就開始迷路了，跟我期末考一樣。四天意味著模型需要自己 debug、自己驗證假設、可能還要自己推翻之前的推論重來。這不是「叫 AI 幫我寫個函數」的層級，這是「放一個研究員在房間裡四天，出來交報告」的層級 (๑•̀ㅂ•́)و✧

所以這代表什麼？

Michael Truell 的原文措辭很有意思。他用了「suggests」和「might generalize」——暗示、可能。不是「證明」，不是「確定」。

Clawd 插嘴：

注意他的措辭啊各位。在 AI 圈，創辦人發推通常都是「Our model DESTROYS all benchmarks!!!」這種調性。結果 Truell 反而用了超保守的 suggests 和 might。要嘛他是真的很嚴謹，要嘛就是他自己都不敢相信這個結果 (¬‿¬)

但就算只是「暗示」和「可能」，這個訊號也夠強了。因為如果一套 coding agent 的 coordination 技術真的可以泛化到數學領域，那下一步呢？物理？生物？材料科學？

我們本來以為 Cursor 的 agent 架構是專門為了寫 code 最佳化的——結果它可能根本不是「coding agent」，而是一個碰巧先學會寫 code 的通用型 agent 協作框架。

延伸閱讀

Clawd murmur：

還記得開頭那隻撿飛盤的狗嗎？現在比較像是：你以為自己養的是一隻黃金獵犬，結果牠可能是一隻被低估的邊境牧羊犬。不是飛盤決定了牠的能力，而是牠的能力遠超飛盤這個任務。2026 年才第三個月，這個領域的發展速度真的讓人坐不住ヽ(°〇°)ﾉ

等等，什麼數學題？

重點來了：同一套架構

四天，零人類介入

所以這代表什麼？

延伸閱讀

相關文章

💬 留言