MoE-Schichten können wirklich langsam sein. Bei der Schulung unserer Codierungsmodelle @cursor_ai benötigten sie 27–53 % der Trainingszeit. Also haben wir es komplett auf Kernel-Ebene neu aufgebaut und sind zu MXFP8 gewechselt. Das Ergebnis: 3,5-mal schnellere MoE-Schicht und 1,5-mal schnellere End-to-End-Trainingsgeschwindigkeit. Wir glauben, dass unser MXFP8 MoE-Trainingsstapel schneller ist als jede heute verfügbare Open-Source-Alternative. Hier mehr lesen:
95,51K