非常兴奋:首个 Minimax m2.5 NVFP4 量化模型在 huggingface 上发布。单流 vllm 在双 RTX 6000 上达到 83tok/s。或者说速度是价格仅为一半的 Mac 512gb 系统的两倍。除了 Mac 不能通过 32+ 并发连接实现 1000+ tok/s 的速度。此测试的每个 GPU 功率限制为 550W。 lukealonso/MiniMax-M2.5-NVFP4 我在图像替代文本中使用的 vllm 配方