MiniMax-M2.5 NVFP4 fonctionnant sur 2x RTX 6000 > 83 tokens/sec en flux unique > permet jusqu'à 32 utilisateurs simultanés > poussant 1000+ tokens/sec > cela coûte ~2x 512GB Mac Studios > sauf que Mac = 1 prompt à la fois > et des tokens/sec encore plus lents > modèle sur HF > lukealonso/MiniMax-M2.5-NVFP4