DApp Store | Pusat Web3 untuk Event & Game

Jelajahi Giveaway Web3 untuk reward lebih menarik

Topik trending

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-1,68%

Boopa-3,72%

PORK-2,5%

Awni Hannun

AI @apple

Awni Hannun12 jam lalu

GPT-OSS menggunakan kuantisasi MXFP4 (yang sekarang didukung MLX). Ada dua format FP4 yang beredar saat ini: MXFP4 dan NVFP4 (NV untuk Nvidia). Dari melihat bagaimana GPT-OSS menggunakan MXFP4, itu agak tidak optimal. Saya pikir NVFP4 akan menjadi format yang lebih umum digunakan di masa depan. Detail lebih lanjut di bawah ini: Kedua format mengkuantisasi bobot ke floating point 4-bit (e2 m1) dengan skala unik per grup. Perbedaannya adalah ukuran grup dan bagaimana skala untuk setiap grup dikodekan. - MXFP4 menggunakan skala e8m0 (titik tetap, 8-bit) dengan ukuran grup 32. Itu dinaikkan menjadi pangkat 2 sebelum mengalikan bobot. - NVFP4 menggunakan skala e4m3 (fp8) dengan ukuran grup 16. Itu dikalikan dengan berat secara langsung Pengkodean skala di MXFP4 cukup suboptimal karena tidak memiliki representasi untuk banyak nilai dalam rentang yang kita butuhkan. Faktanya, jika Anda melihat distribusi skala untuk GPT-OSS, itu sangat terkonsentrasi hanya di sekitar beberapa nilai. Misalnya, untuk lapisan MoE kedua saya melihat hanya 8/256 nilai yang mungkin bahkan digunakan. (Lihat plot).

11,56K

Awni Hannun memposting ulang

Gheorghe Iuga27 Agu, 22.40

Memang. MLX lebih dari sekadar inferensi LLM. MLX memberikan ~8,8× throughput NumPy untuk beban kerja DTM ini (latensi ≈89% lebih rendah) Metode Transformasi Diferensial (DTM) untuk analisis defleksi balok.

3,82K

Awni Hannun memposting ulang

Prince Canuma27 Agu, 01.51

Memperkenalkan Marvis-TTS 🔥🚀 Model TTS baru yang mengutamakan lokal @lllucas dan saya membangun untuk efisiensi, aksesibilitas, dan kinerja real-time langsung di perangkat konsumen seperti Apple Silicon, iPhone, iPad, dan banyak lagi. Model TTS tradisional sering menuntut input teks lengkap atau mengorbankan kemampuan real-time, Marvis membalik skrip. Ini mengalirkan potongan audio saat teks diproses, menciptakan pengalaman percakapan yang benar-benar. Tidak ada lagi jeda canggung atau jeda yang tidak wajar—Marvis menangani seluruh konteks teks dengan cerdas untuk menyampaikan pidato yang koheren dan ekspresif. Mulai hari ini: > pip install -U mlx-audio

42,46K

Teratas

Peringkat

Favorit