Ecco un riepilogo del codice in una riga in MLX del post del blog @thinkymachines sulla non-determinismo nell'inferenza LLM. Sospetto che la differenza sia maggiore quanto più bassa è la precisione, poiché si ottengono effetti maggiori dalla non associatività della matematica FP. Curiosamente, ciò implica che l'addestramento a bassa precisione (pensa a NVFP4) potrebbe rendere la generazione molto più sensibile alla dimensione del batch.