非常興奮:第一個在 huggingface 上的 Minimax m2.5 NVFP4 量化。單流 vllm 在雙 RTX 6000 上達到 83tok/s。或者大約是價格只有一半的 Mac 512gb 系統的兩倍速度。除了 Mac 不能通過 32+ 的並發連接達到 1000+ tok/s。這次測試的每個 GPU 功率限制為 550W。 lukealonso/MiniMax-M2.5-NVFP4 我在圖片替代文字中使用的 vllm 食譜