Aquí hay un resumen de código de una línea en MLX de la publicación de blog de @thinkymachines sobre el no determinismo en la inferencia de LLM. Supongo que la diferencia es mayor cuanto menor es la precisión, ya que se obtienen mayores efectos de la no asociatividad de las matemáticas de FP. Curiosamente, eso implica que el entrenamiento con baja precisión (piense en NVFP4) podría hacer que la generación sea mucho más sensible al tamaño del lote.