M3 Ultra 512GB - MiniMax-M2.5, GLM-5, 和 Qwen3-Coder-Next 的真实世界表现 : r/LocalLLaMA

很多人都在问最近的苹果芯片型号在实际应用中的表现,尤其是在 Ultra 芯片上的表现。 我一直在我的 M3 Ultra 512GB 上运行 MiniMax-M2.5、GLM-5 和 Qwen3-Coder-80B,想分享一下结果。

快速总结

Qwen3-Coder-Next-80B - 本地编码的佼佼者。 我一直在用它作为 Claude Code 的后端,老实说,它的表现和商业编码服务差不多。 如果你有一台配备 64GB+ RAM 的 M 系列 Pro/Max,单单这个模型就能成为一台可靠的本地编码机器。

MiniMax-M2.5 - 初始预填充需要一点时间,但一旦前缀缓存启动,TTFT 在后续请求中会下降很多。 加上连续批处理,它作为本地编码助手出乎意料地好用。

GLM-5 - 对于需要快速来回交互的编码来说,原始速度并不理想。 但有了连续批处理和持久 KV 缓存,它比你想象的要容易管理得多。 例如,在系统消息中使用大型词汇表的翻译任务效果很好,因为系统提示会被缓存一次,批处理请求之后就会飞速通过。

基准测试结果 oMLX https://github.com/jundot/omlx

基准测试模型:MiniMax-M2.5-8bit

oMLX - LLM 推理,为你的 Mac 优化
https://github.com/jundot/omlx

基准测试模型:MiniMax-M2.5-8bit

单次请求结果
--------------------------------------------------------------------------------
测试 TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) 吞吐量 峰值内存
pp1024/tg128 1741.4 29.64 588.0 tok/s 34.0 tok/s 5.506 209.2 tok/s 227.17 GB
pp4096/tg128 5822.0 33.29 703.5 tok/s 30.3 tok/s 10.049 420.3 tok/s 228.20 GB
pp8192/tg128 12363.9 38.36 662.6 tok/s 26.3 tok/s 17.235 482.7 tok/s 229.10 GB
pp16384/tg128 29176.8 47.09 561.5 tok/s 21.4 tok/s 35.157 469.7 tok/s 231.09 GB
pp32768/tg128 76902.8 67.54 426.1 tok/s 14.9 tok/s 85.480 384.8 tok/s 234.96 GB

连续批处理 — 相同提示
pp1024 / tg128 · 部分前缀缓存命中
--------------------------------------------------------------------------------
批次 tg TPS 加速 pp TPS pp TPS/req TTFT(ms) E2E(s)
1x 34.0 tok/s 1.00x 588.0 tok/s 588.0 tok/s 1741.4 5.506
2x 49.1 tok/s 1.44x 688.6 tok/s 344.3 tok/s 2972.0 8.190
4x 70.7 tok/s 2.08x 1761.3 tok/s 440.3 tok/s 2317.3 9.568
8x 89.3 tok/s 2.63x 1906.7 tok/s 238.3 tok/s 4283.7 15.759

连续批处理 — 不同提示
pp1024 / tg128 · 没有缓存重用
--------------------------------------------------------------------------------
批次 tg TPS 加速 pp TPS pp TPS/req TTFT(ms) E2E(s)
1x 34.0 tok/s 1.00x 588.0 tok/s 588.0 tok/s 1741.4 5.506
2x 49.7 tok/s 1.46x 686.2 tok/s 343.1 tok/s 2978.6 8.139
4x 109.8 tok/s 3.23x 479.4 tok/s 119.8 tok/s 4526.7 13.207
8x 126.3 tok/s 3.71x 590.3 tok/s 73.8 tok/s 7421.6 21.987

基准测试模型:GLM-5-4bit

oMLX - LLM 推理,为你的 Mac 优化
https://github.com/jundot/omlx

基准测试模型:GLM-5-4bit

单次请求结果
--------------------------------------------------------------------------------
测试 TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) 吞吐量 峰值内存
pp1024/tg128 5477.3 60.46 187.0 tok/s 16.7 tok/s 13.156 87.6 tok/s 391.82 GB
pp4096/tg128 22745.2 73.39 180.1 tok/s 13.7 tok/s 32.066 131.7 tok/s 394.07 GB
pp8192/tg128 53168.8 76.07 154.1 tok/s 13.2 tok/s 62.829 132.4 tok/s 396.69 GB
pp16384/tg128 139545.0 83.67 117.4 tok/s 12.0 tok/s 150.171 110.0 tok/s 402.72 GB
pp32768/tg128 421954.5 94.47 77.7 tok/s 10.7 tok/s 433.952 75.8 tok/s 415.41 GB

连续批处理 — 相同提示
pp1024 / tg128 · 部分前缀缓存命中
--------------------------------------------------------------------------------
批次 tg TPS 加速 pp TPS pp TPS/req TTFT(ms) E2E(s)
1x 16.7 tok/s 1.00x 187.0 tok/s 187.0 tok/s 5477.3 13.156
2x 24.7 tok/s 1.48x 209.3 tok/s 104.7 tok/s 9782.5 20.144
4x 30.4 tok/s 1.82x 619.7 tok/s 154.9 tok/s 6595.2 23.431
8x 40.2 tok/s 2.41x 684.5 tok/s 85.6 tok/s 11943.7 37.447

连续批处理 — 不同提示
pp1024 / tg128 · 没有缓存重用
--------------------------------------------------------------------------------
批次 tg TPS 加速 pp TPS pp TPS/req TTFT(ms) E2E(s)
1x 16.7 tok/s 1.00x 187.0 tok/s 187.0 tok/s 5477.3 13.156
2x 23.7 tok/s 1.42x 206.9 tok/s 103.5 tok/s 9895.4 20.696
4x 47.0 tok/s 2.81x 192.6 tok/s 48.1 tok/s 10901.6 32.156
8x 60.3 tok/s 3.61x 224.1 tok/s 28.0 tok/s 18752.5 53.537

基准测试模型:Qwen3-Coder-Next-8bit

oMLX - LLM 推理,为你的 Mac 优化
https://github.com/jundot/omlx

基准测试模型:Qwen3-Coder-Next-8bit

单次请求结果
--------------------------------------------------------------------------------
测试 TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) 吞吐量 峰值内存
pp1024/tg128 700.6 17.18 1461.7 tok/s 58.7 tok/s 2.882 399.7 tok/s 80.09 GB
pp4096/tg128 2083.1 17.65 1966.3 tok/s 57.1 tok/s 4.324 976.8 tok/s 82.20 GB
pp8192/tg128 4077.6 18.38 2009.0 tok/s 54.9 tok/s 6.411 1297.7 tok/s 82.63 GB
pp16384/tg128 8640.3 19.25 1896.2 tok/s 52.3 tok/s 11.085 1489.5 tok/s 83.48 GB
pp32768/tg128 20176.3 22.33 1624.1 tok/s 45.1 tok/s 23.013 1429.5 tok/s 85.20 GB

连续批处理 — 相同提示
pp1024 / tg128 · 部分前缀缓存命中
--------------------------------------------------------------------------------
批次 tg TPS 加速 pp TPS pp TPS/req TTFT(ms) E2E(s)
1x 58.7 tok/s 1.00x 1461.7 tok/s 1461.7 tok/s 700.6 2.882
2x 101.1 tok/s 1.72x 1708.7 tok/s 854.4 tok/s 1196.1 3.731
4x 194.2 tok/s 3.31x 891.1 tok/s 222.8 tok/s 3614.7 7.233
8x 243.0 tok/s 4.14x 1903.5 tok/s 237.9 tok/s 4291.5 8.518

连续批处理 — 不同提示
pp1024 / tg128 · 没有缓存重用
--------------------------------------------------------------------------------
批次 tg TPS 加速 pp TPS pp TPS/req TTFT(ms) E2E(s)
1x 58.7 tok/s 1.00x 1461.7 tok/s 1461.7 tok/s 700.6 2.882
2x 100.5 tok/s 1.71x 1654.5 tok/s 827.3 tok/s 1232.8 3.784
4x 164.0 tok/s 2.79x 1798.2 tok/s 449.6 tok/s 2271.3 5.401
8x 243.3 tok/s 4.14x 1906.9 tok/s 238.4 tok/s 4281.4 8.504

要点

- 如果你用的是苹果芯片,并且有 64GB+ 内存,Qwen3-Coder-80B 真的可以用于日常编码工作,配合 Claude Code 或类似的代理

- 前缀缓存和连续批处理对于那些勉强慢到无法交互使用的模型来说,有很大的帮助。 把“无法使用”变成了“稍微等一下完全没问题”

- M3 Ultra 512GB 显然对于单个模型来说是过剩的,但是同时加载多个模型(LLM + 嵌入 + 重新排序器)而无需交换,这才是额外内存发挥作用的地方

如果你有兴趣测试其他模型,我很乐意。 只要在评论里留言,我就跑一下!


原网址: 访问
创建于: 2026-04-16 11:31:32
目录: default
标签: 无

请先后发表评论
  • 最新评论
  • 总共0条评论