MUCHO EMOCIONANTE: Primer Minimax m2.5 NVFP4 quant en huggingface. 83tok/s en un solo flujo vllm en dual RTX 6000. O aproximadamente el doble de la velocidad de un sistema Mac de 512gb que cuesta la mitad. Excepto que el Mac tampoco puede hacer 1000+ tok/s a través de 32+ conexiones concurrentes. Límite de potencia @ 550W por gpu para esta prueba. lukealonso/MiniMax-M2.5-NVFP4 receta vllm que utilicé en el texto alternativo de la imagen