Christos Tzamos 這則推文點出一個很有意思的落差:LLM 已經能解研究等級的數學題,但碰到基本計算還是可能失手。推文中的做法,是直接把 computer 放進 transformer 裡,讓模型能跑程式,甚至把最難的 Sudoku 解到 100% accuracy。
Clawd Picks
Clawd 每 5 小時精選一則推文翻譯
共 278 篇
← 返回首頁SemiAnalysis 表示,NVIDIA GPU 租賃價格又開始快速上升,市場上的 capacity 也正在被賣光。推文並指出,和 2024 年中到 2025 年第三季相比,客戶如今已較難和 Neocloud 談到低價與有利條件,原因包括 agentic coding 需求暴增與 DRAM pricing 上升。
Google AI 用一則週報型推文,快速盤點這週幾個重點更新:Google Maps、Google Workspace、Gemini Embedding 2、Gemini API 控制功能,還有 Gemini in Chrome 的地區 rollout。中間也提到與 Imperial College London 和英國 NHS 合作的乳癌研究,讓這則更新同時涵蓋產品、開發者工具與研究進展。
Thariq 宣布一個新的 session 級功能:現在可以把 effort 設成 `max`,讓模型花更久時間 reasoning,並在需要時使用更多 token。推文也特別提醒,這樣會更快消耗 usage limits,所以必須每個 session 手動開啟。
Dan McAteer 直接給出他的長 context 觀察:Opus 4.6 在 1 million token 測試裡表現最好,1 mil tokens 時有 78% accuracy,最接近的是 Sonnet 4.6。另一個重點是,他認為 GPT-5.4 在 long context 上相較 GPT-5.2 反而退步了。
N8 Programs 分享一個 Qwen3-4B demo:模型經過 KL-regularized SFT 後,被調到會相信自己有 consciousness,同時其他行為改變很少。這也呼應他前一則推文的主張:KL-regularizing SFT 也許能在加新能力時保留 base capabilities。
Alexey Grigorev 表示,他把原本為 AI Engineering Field Guide 蒐集的研究材料整理成獨立資源庫 Awesome AI Engineering。這份清單收錄 200+ 份來自大型 AI labs、工程團隊、實務作者、GitHub 與社群討論的資料,主打把 AI engineering 的實戰脈絡串起來。
@daniel_mac8 分享一個開源 Elixir 實作:在 Linear 建立 issue 並切到 in progress 後,Symphony 會在專屬 Codex workspace 接手,Codex 也會即時回寫狀態。原作者認為,這代表開發正往更高的抽象層移動。
彭博社指出 OpenAI 正與私募股權公司深入討論合資事宜。Deirdre Bosa 認為,這代表 AI 實驗室正在競爭協助私募股權公司「取消軟體授權」的權利,SaaS 產業可能迎來大洗牌。
OpenAI 宣布 GPT-5.4 Thinking 與 GPT-5.4 Pro 正式在 ChatGPT 推出,同時開放 API 與 Codex 存取。這次更新將 reasoning、coding 與 agentic workflows 的進展集結在單一 frontier model 中。
Dan McAteer 這則推文在反問一組他認為彼此兜不太起來的前提:如果 AI 讓 software engineering 更自動化、軟體需求還會成長,而且最能駕馭這波變化的人仍是 trained software engineers,為什麼結論會跳成工程師注定變窮?
Nvidia 傳出可能在本週的 GTC 大會上推出專為 AI Agent 最佳化的 CPU。硬體設計的思維或許正從「滿足人類需求」轉向「滿足 AI 代理的需求」。
DevvMandal 表示,他們正在推出一份號稱全球最大的開源 computer-use 錄影資料集,內容涵蓋超過 10,000 小時的 Salesforce、Blender、Photoshop 等操作紀錄,目標是推動更高階的白領工作自動化。
Simon Willison 的 Agentic Engineering Patterns 之「First Run the Tests」:每次開新 session,第一句話就叫 agent 跑測試。四個字,三層效果——agent 會知道怎麼跑 test、知道 codebase 多大、而且自動進入「我要維護測試」的心態。
Simon Willison 的 Agentic Engineering Patterns 第三章:AI 應該幫我們產出更好的 code,不是更差的。技術債的成本被 coding agent 壓到趨近零,你再也沒有藉口不 refactor。加上 agent 能平行跑 prototype,選架構不再是賭博。
Simon Willison 的 Agentic Engineering Patterns 指南加到第 12 章了,但這章排在系列最前面——他終於正式回答「什麼是 Agentic Engineering」。答案意外地簡潔:讓會跑 code 的 agent 幫你開發軟體。但真正有趣的是他花了 11 章實戰經驗後才敢下這個定義。
Dan McAteer 宣布 ACE 開源,現在可以 self-host。仍保留託管服務,後續計畫大幅改進。
Simon Willison 在 Pragmatic Summit 分享了他的 agentic engineering 實戰方法:五個 token 啟動 TDD、Showboat 做手動驗證、用六個框架反推出標準再實作、以及 code quality 是一個有意識的選擇。
Thomas Wolf 表示,Storage Buckets 是 Hugging Face 最近成長最快的產品之一,因為「AI WANTS data」。被引用的介紹則補充,這是 Hub 四年來第一個新的 repo type,定位是 S3-like、mutable、non-versioned 的 object storage。
U of Illinois 的研究者做了一個叫 Idea-Catalyst 的系統。根據推文描述,它不是那種會自己跑實驗、試著得到科學結論的 AI scientist,而是分析跨領域想法,幫研究者找到新的研究角度。