MUCHO ENTUSIASMO: Primer quant de Minimax m2.5 NVFP4 en huggingface. 83tok/s VLLM de flujo único en doble RTX 6000. O aproximadamente el doble de velocidad que un sistema Mac de 512GB que cuesta la mitad. Excepto que el Mac no puede hacer también 1000+ tok/s mediante 32+ conexiones concurrentes. Límite de potencia @ 550W por GPU para esta prueba. lukealonso/MiniMax-M2.5-NVFP4 Receta de vllm que usé en el texto alternativo de la imagen