Zde je jednořádkové shrnutí kódu v MLX z @thinkymachines příspěvku na blogu o nedeterminismu v odvozování LLM. Tipoval bych, že rozdíl je tím větší, čím nižší je přesnost, protože získáváte větší efekty z neasociativity FP matematiky. Zajímavé je, že to znamená, že trénování s nízkou přesností (například NVFP4) může způsobit, že generování bude mnohem citlivější na velikost šarže.