Den nya Motif-2-12.7B (från sydkoreanska) har riktigt imponerande betyg och de har återigen kokat med arkitektur/hårdvaruoptimering. Min favoritdel är hur de använde den tidigare Motif-2.6B för att initiera den större modellen, med hjälp av två olika tekniker för att skala modellens djup och bredd, vilket förbättrar tokeneffektiviteten jämfört med att träna från grunden. De använder också sitt eget arbete för att förbättra den differentiella uppmärksamhet de tidigare använt, med en grupperad variant för att få mer granularitet i brus- och signalhuvudena (mer signal, mindre nosie). Tränade endast på 5.5T tokens, med en "läroplansmedveten dataschemaläggning" (inte mycket info om detta tho) + en hel del olika hårdvaruoptimeringar (några av dem är öppen källkod, se länkar nedan!) med parallell Muon-Clip, effektiva kärnor för Polynorm och FP8-träning med torchtitan! De nämner också att Muon tillåter större batchstorlekar, och de skalar upp till 80 M GBS, vilket är ganska högt för en modell av den här storleken. 400 H100 GPU:er och ~272K GPU-timmar är imponerande för att få denna prestandanivå imo