Hier is een samenvatting van één regel in MLX van de blogpost van @thinkymachines over niet-determinisme in LLM-inferentie. Ik zou gokken dat het verschil groter is naarmate de precisie lager is, omdat je grotere effecten krijgt van de niet-associativiteit van FP-wiskunde. Interessant genoeg impliceert dat dat trainen op lage precisie (denk aan NVFP4) de generatie veel gevoeliger kan maken voor batchgrootte.