moe
4 篇文章
Paweł Huryn 稱:3B active parameters 的 Holo3 在 computer use 上贏過 GPT-5.4 和 Opus 4.6
Paweł Huryn 在 X 上稱,H Company 的 Holo3 在 computer use 任務上勝過 GPT-5.4 與 Opus 4.6,且僅有 3B active parameters。推文還稱它採 sparse MoE,並理論上可在單張 GPU 本地運行。
為什麼程式員愛 Codex,Vibe Coder 離不開 Claude?Dense vs MoE 背後其實是兩種 coding 哲學
Berryxia 用 Dense vs MoE 解釋一個很多人都有感的現象:Codex 常被程式員拿來修 bug、重構、跑長任務;Claude 卻特別受 vibe coder 喜歡。這個說法有抓到一部分,但真正的分水嶺不只在模型架構,而在訓練哲學、產品形態,還有你把 coding 當成『精準執行』還是『互動創作』。
一兆參數模型跑在 MacBook 上?SSD 串流推理的狂野實驗
Simon Willison 分享了在 Mac 上跑超大 MoE 模型的新趨勢:把 expert weights 從 SSD 串流進來,不用全塞進 RAM。連 1 兆參數的 Kimi K2.5 都能在 96GB MacBook Pro 上跑起來。
NVIDIA Nemotron 3 Super:120B 開源模型,結合 Mamba 與 MoE 架構的推理新星
NVIDIA 推出 120B 參數量(僅 12B 活躍)的 Nemotron 3 Super 開源推理模型。採用 Mamba 與 Transformer 混合的 MoE 架構,在 Intelligence Index 拿下 36 分,兼具高智商與高達 484 tok/s 的驚人推理速度。