MiniMax-M2.5 NVFP4 executando em 2x RTX 6000 > 83 tokens/segundo em fluxo único > permite até 32 usuários simultâneos > empurrando 1000+ tokens/segundo > isso custa ~2x 512GB Mac Studios > exceto que o Mac = 1 prompt de cada vez > e até tokens/segundo mais lentos > modelo no HF > lukealonso/MiniMax-M2.5-NVFP4