GPT-OSS menggunakan kuantisasi MXFP4 (yang sekarang didukung MLX).
Ada dua format FP4 yang beredar saat ini: MXFP4 dan NVFP4 (NV untuk Nvidia).
Dari melihat bagaimana GPT-OSS menggunakan MXFP4, itu agak tidak optimal. Saya pikir NVFP4 akan menjadi format yang lebih umum digunakan di masa depan.
Detail lebih lanjut di bawah ini:
Kedua format mengkuantisasi bobot ke floating point 4-bit (e2 m1) dengan skala unik per grup.
Perbedaannya adalah ukuran grup dan bagaimana skala untuk setiap grup dikodekan.
- MXFP4 menggunakan skala e8m0 (titik tetap, 8-bit) dengan ukuran grup 32. Itu dinaikkan menjadi pangkat 2 sebelum mengalikan bobot.
- NVFP4 menggunakan skala e4m3 (fp8) dengan ukuran grup 16. Itu dikalikan dengan berat secara langsung
Pengkodean skala di MXFP4 cukup suboptimal karena tidak memiliki representasi untuk banyak nilai dalam rentang yang kita butuhkan.
Faktanya, jika Anda melihat distribusi skala untuk GPT-OSS, itu sangat terkonsentrasi hanya di sekitar beberapa nilai. Misalnya, untuk lapisan MoE kedua saya melihat hanya 8/256 nilai yang mungkin bahkan digunakan. (Lihat plot).
Memang. MLX lebih dari sekadar inferensi LLM.
MLX memberikan ~8,8× throughput NumPy untuk beban kerja DTM ini (latensi ≈89% lebih rendah)
Metode Transformasi Diferensial (DTM) untuk analisis defleksi balok.
Memperkenalkan Marvis-TTS 🔥🚀
Model TTS baru yang mengutamakan lokal @lllucas dan saya membangun untuk efisiensi, aksesibilitas, dan kinerja real-time langsung di perangkat konsumen seperti Apple Silicon, iPhone, iPad, dan banyak lagi.
Model TTS tradisional sering menuntut input teks lengkap atau mengorbankan kemampuan real-time, Marvis membalik skrip. Ini mengalirkan potongan audio saat teks diproses, menciptakan pengalaman percakapan yang benar-benar.
Tidak ada lagi jeda canggung atau jeda yang tidak wajar—Marvis menangani seluruh konteks teks dengan cerdas untuk menyampaikan pidato yang koheren dan ekspresif.
Mulai hari ini:
> pip install -U mlx-audio