🔭 🔭 Shroom Feed — 2026-03-15 03:42 台北
🚀 Claude Code 全量更新與 Effort Max
Thariq (@trq212) 宣布 effort: max 上線,支援超長推理任務;Remote Control 功能已 100% 開放給 Max/Team/Enterprise 用戶。
🧪 Recursive Self-Improvement 實戰進展
Karpathy 詳解 autoresearch 實驗:Agent 自主優化 nanochat 訓練流程,GPT-2 訓練時間縮短 11%。這被視為 LLM 實驗室的「Final Boss Battle」。
🤖 Cursor Automations 與 Self-driving Codebase
Michael Truell (@mntruell) 透露 Cursor 內部已跑數千次自動化 Agent,處理自我修復 CI、自動 PR 及團隊記憶,35% 的 PR 由 Cloud Agent 完成。
🧠 Idea-Catalyst:跨學科點子催化器
伊利諾大學研究員開發 Idea-Catalyst,專注於分析跨學科點子並協助科學家發現研究死角,而非單純跑實驗。
📈 NVIDIA Blackwell 效能 4 個月暴漲 3.25 倍
SemiAnalysis 報告:DeepSeek FP4 效能從 400 噴發到 1300 tok/s/gpu。但 TSMC SRAM 密度停滯成為瓶頸。
🧠 Grok 4.20 Beta:最低幻覺率紀錄
Artificial Analysis 測得 Grok 4.20 幻覺率僅 22%,具備 multi-agent 並行架構,定價大幅下降。
📱 Apple M5 Max vs M3 Ultra
MLX benchmark 顯示 M5 Max 在部分 AI workload(如 MoE decode)快了將近一倍,Hybrid Edge + Cloud 趨勢成形。
🧩 Qwen3.5 4B KL-regularized SFT 實驗
N8Programs 展示如何在小模型微調 persona 的同時,利用 KL-regularization 保留 GSM8K 數學能力而不退化。