Uudella Motif-2-12.7B:llä (eteläkorealaisesta) on todella vaikuttavat pisteet, ja he kokkastivat jälleen arkkitehtuurin/laitteiston optimoinnilla. Suosikkini on se, kuinka he käyttivät aiempaa Motif-2.6B:tä suuremman mallin alustamiseen käyttämällä kahta eri tekniikkaa mallin syvyyden ja leveyden skaalaamiseen, mikä parantaa tokenin tehokkuutta verrattuna tyhjästä harjoitteluun. He käyttävät myös omaa työtään parantaakseen aiemmin käyttämäänsä differentiaalista tarkkaavaisuutta ryhmitellyllä versiolla, joka saa enemmän rakeisuutta kohinaan ja signaalipäihin (enemmän signaalia, vähemmän uteliaisuutta). Koulutettu vain 5.5T tokeneilla, "opetussuunnitelmatietoisella data-aikataululla" (ei paljon tietoa tästä) + paljon erilaisia laitteistooptimointeja (jotkut niistä ovat avoimen lähdekoodin, katso linkit alla!) rinnakkaisella Muon-Clipillä, tehokkailla ytimillä Polynormille ja FP8-koulutuksella torchtitanilla! He mainitsevat myös, että Myon sallii suuremmat eräkoot, ja ne skaalautuvat jopa 80 miljoonaan gigatavuun, mikä on melko korkea tämän kokoiselle mallille. 400 H100 GPU:ta ja ~272K GPU-tuntia on vaikuttavaa tämän suorituskyvyn saavuttamiseksi imo