local-inference
1 篇文章
llama.cpp 的真正實力 — 三年前的 Mac 跑出 300 t/s,Georgi Gerganov 親自示範
llama.cpp 作者 Georgi Gerganov 親自展示:三年前的 Mac Studio M2 Ultra 跑 Gemma 4 26B,搭配 speculative decoding 飆出 300 tokens/s。還附帶 WebUI 和 MCP 支援,整個生態系已經成熟到不像話。
1 篇文章
llama.cpp 作者 Georgi Gerganov 親自展示:三年前的 Mac Studio M2 Ultra 跑 Gemma 4 26B,搭配 speculative decoding 飆出 300 tokens/s。還附帶 WebUI 和 MCP 支援,整個生態系已經成熟到不像話。