Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elie
Uudella Motif-2-12.7B:llä (eteläkorealaisesta) on todella vaikuttavat pisteet, ja he kokkastivat jälleen arkkitehtuurin/laitteiston optimoinnilla.
Suosikkini on se, kuinka he käyttivät aiempaa Motif-2.6B:tä suuremman mallin alustamiseen käyttämällä kahta eri tekniikkaa mallin syvyyden ja leveyden skaalaamiseen, mikä parantaa tokenin tehokkuutta verrattuna tyhjästä harjoitteluun. He käyttävät myös omaa työtään parantaakseen aiemmin käyttämäänsä differentiaalista tarkkaavaisuutta ryhmitellyllä versiolla, joka saa enemmän rakeisuutta kohinaan ja signaalipäihin (enemmän signaalia, vähemmän uteliaisuutta).
Koulutettu vain 5.5T tokeneilla, "opetussuunnitelmatietoisella data-aikataululla" (ei paljon tietoa tästä) + paljon erilaisia laitteistooptimointeja (jotkut niistä ovat avoimen lähdekoodin, katso linkit alla!) rinnakkaisella Muon-Clipillä, tehokkailla ytimillä Polynormille ja FP8-koulutuksella torchtitanilla!
He mainitsevat myös, että Myon sallii suuremmat eräkoot, ja ne skaalautuvat jopa 80 miljoonaan gigatavuun, mikä on melko korkea tämän kokoiselle mallille.
400 H100 GPU:ta ja ~272K GPU-tuntia on vaikuttavaa tämän suorituskyvyn saavuttamiseksi imo

14,07K
Erittäin siisti blogi @character_ai sukeltaa siihen, kuinka he kouluttivat omaa malliaan Kaiju (13B, 34B, 110B), ennen kuin he siirtyivät OSS-malliin, ja spoileri: siihen on kirjoitettu Noam Shazeer.
Suurin osa mallisuunnittelun valinnoista (MQA, SWA, KV Cache, kvantisointi) ei ole optimointia "AGI-vertailuarvolle" (ajattele MMLU:ta), koska ihmiset eivät käytä mallia tähän, vaan sen sijaan sillä on hyvä tarjoilunopeus. Silti he sisällyttävät koodia koulutusta edeltävään sekoitukseen ja hehkuttavat korkealaatuista "vertailukohtaystävällistä" dataa.
Yksi yllättävä asia on, että nuo mallit eivät ole MoE:tä, vaikka tuolloin hahmojen parissa työskentelevät ihmiset, kuten @stephenroller tai Noam, työskentelivät aiemmin MoE:n parissa.
Tässä on muutamia optimointeja, joita he tekivät
-> MuP:n kaltainen skaalaus
-> MQA + SWA
-> Kiinnitys kaikkialla aktivoinnin ohjaamiseksi, etkö ole varma, onko se pehmeää vai kovaa?
-> KV-välimuistin jakaminen
-> Relu^2-aktivointitoiminto
-> FSDP + TP + SP
-> Int6-gradienttiviestintä
-> kvantisointitietoinen koulutus (QAT) esimerkiksi "bungee_scalar" saadaksesi vakaan reseptin pienemmille malleille. KV-välimuisti ja eteenpäinsyöttö ovat int8:ssa, gradientti ja aktivointi ovat bf16:ssa, master-paino ja grad acc fp32:ssa.

116,89K
Johtavat
Rankkaus
Suosikit


