BANYAK MENGGAIRAHKAN: Minimax pertama m2.5 NVFP4 quant pada huggingface. 83tok/s VLLM aliran tunggal pada RTX 6000 ganda. Atau sekitar dua kali kecepatan sistem Mac 512gb yang harganya setengahnya. Kecuali Mac juga tidak dapat melakukan 1000+ tok/s melalui 32+ koneksi bersamaan. Batas daya @ 550W per gpu untuk pengujian ini. lukealonso/MiniMax-M2.5-NVFP4 resep vllm yang saya gunakan dalam teks alt gambar