Hier ist eine einzeilige Code-Zusammenfassung im MLX des Blogbeitrags von @thinkymachines über Nicht-Determinismus in der LLM-Inferenz. Ich würde schätzen, dass der Unterschied größer ist, je niedriger die Präzision ist, da man größere Auswirkungen von der Nicht-Assoziativität der FP-Mathematik erhält. Interessanterweise impliziert das, dass das Training mit niedriger Präzision (denken Sie an NVFP4) die Generierung viel empfindlicher gegenüber der Batch-Größe machen könnte.