Aqui está um resumo do código de uma linha no MLX da postagem do blog @thinkymachines sobre não determinismo na inferência LLM. Eu acho que a diferença é maior quanto menor a precisão, pois você obtém efeitos maiores da não associatividade da matemática FP. Curiosamente, isso implica que o treinamento em baixa precisão (pense no NVFP4) pode tornar a geração muito mais sensível ao tamanho do lote.