MUITO EMPOLGANTE: Primeiro quant Minimax m2.5 NVFP4 no huggingface. 83tok/s single stream vllm em dual RTX 6000. Ou cerca do dobro da velocidade de um Mac de 512GB que custa metade do preço. Exceto que o Mac também não consegue fazer 1000+ tok/s via 32+ conexões concorrentes. Limite de potência @ 550W por GPU para este teste. lukealonso/MiniMax-M2.5-NVFP4 Receita de vllm que usei no texto alternativo da imagem