Aquí hay un resumen de código en una línea en MLX de la publicación del blog de @thinkymachines sobre la no determinación en la inferencia de LLM. Supongo que la diferencia es mayor cuanto menor es la precisión, ya que se obtienen mayores efectos de la no asociatividad de las matemáticas de punto flotante. Curiosamente, eso implica que entrenar a baja precisión (piensa en NVFP4) podría hacer que la generación sea mucho más sensible al tamaño del lote.