Ось однорядковий підсумок коду в дописі блогу MLX of the @thinkymachines про недетермінізм у висновуванні LLM. Я б припустив, що різниця тим більша, чим нижча точність, оскільки ви отримуєте більші ефекти від неасоціативності математики FP. Цікаво, що це означає, що тренування з низькою точністю (згадайте NVFP4) може зробити генерацію набагато чутливішою до розміру партії.