Berikut adalah ringkasan kode satu baris di MLX dari posting blog @thinkymachines tentang non-determinisme dalam inferensi LLM. Saya kira perbedaannya lebih besar semakin rendah presisinya, karena Anda mendapatkan pengaruh yang lebih besar dari non-asosiasi matematika FP. Menariknya, itu menyiratkan bahwa pelatihan dengan presisi rendah (pikirkan NVFP4) mungkin membuat generasi jauh lebih sensitif terhadap ukuran batch.