Her er et kodesammendrag på én linje i MLX av det @thinkymachines blogginnlegget om ikke-determinisme i LLM-slutning. Jeg vil tippe at forskjellen er større jo lavere presisjon, ettersom du får større påvirkninger fra ikke-assosiativitet av FP-matematikk. Interessant nok innebærer det at trening med lav presisjon (tenk NVFP4) kan gjøre genereringen mye mer følsom for batchstørrelse.