Hier ist eine einzeilige Code-Zusammenfassung im MLX des Blogbeitrags von @thinkymachines über Nicht-Determinismus in der LLM-Inferenz.
Ich würde schätzen, dass der Unterschied größer ist, je niedriger die Präzision ist, da man größere Auswirkungen von der Nicht-Assoziativität der FP-Mathematik erhält.
Interessanterweise impliziert das, dass das Training mit niedriger Präzision (denken Sie an NVFP4) die Generierung viel empfindlicher gegenüber der Batch-Größe machen könnte.
In den letzten 2 Wochen wurden 7 neue Modellarchitekturen zu MLX LM hinzugefügt.
Von diesen 7 sind 6 MoEs.
Von diesen 6 MoEs sind 3 hybride SSM / Aufmerksamkeitsmodelle.
Architekturen ändern sich langsam und dann plötzlich.