Här är en sammanfattning av en radkod i MLX av det @thinkymachines blogginlägget om icke-determinism i LLM-inferens. Jag skulle gissa att skillnaden är större ju lägre precision, eftersom du får större effekter från icke-associativitet av FP matematik. Intressant nog innebär det att träning med låg precision (tänk NVFP4) kan göra genereringen mycket mer känslig för batchstorlek.