Вот краткое резюме кода в одной строке на MLX из блога @thinkymachines о недетерминизме в выводе LLM. Я бы предположил, что разница больше при низкой точности, так как вы получаете большие эффекты от неассоциативности FP-математики. Интересно, что это подразумевает, что обучение при низкой точности (например, NVFP4) может сделать генерацию гораздо более чувствительной к размеру пакета.