Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NeurIPS-tulokset ovat julkaistu; Pluraliksella on kolme hyväksyttyä artikkelia. Ensimmäinen on ydintutkimustulos, joka toimii tällä hetkellä 7,5 miljardin avoimen esikoulutusjuoksun node0:n voimanlähteenä. Kaksi jälkimmäistä ovat myös merkittäviä tuloksia, jotka integroimme seuraaviin ajoihin. Tämä tapahtuu pienen <10 hengen tiimin kanssa, joka tehdään node0:n rakentamisen aikana.
1) Aliavaruusverkot: Hajautetun koulutuksen skaalaaminen viestintätehokkaalla mallin rinnakkaisuudella: Mallien skaalaus on johtanut merkittäviin edistysaskeliin syväoppimisessa, mutta näiden mallien kouluttaminen hajautetuissa ympäristöissä on edelleen haastavaa viestinnän pullonkaulojen vuoksi. Vaikka nykyiset pakkaustekniikat ovat tehokkaita rinnakkaisdatassa, ne eivät ulotu mallien rinnakkaisuuteen. Toisin kuin datan rinnakkainen koulutus, jossa painogradientteja vaihdetaan, mallirinnakkaisuus vaatii aktivointien ja aktivointigradienttien pakkaamista, kun ne etenevät kerrosten läpi, mikä kerää pakkausvirheitä. Ehdotamme uutta pakkausalgoritmia, joka pakkaa sekä eteen- että taaksepäin kulkemisen, mikä mahdollistaa jopa 99 %:n pakkauksen ilman konvergenssin heikkenemistä mitättömällä muisti-/laskentakuormituksella. Hyödyntämällä rekursiivista rakennetta muuntajaverkoissa määrittelemme ennalta matalaulotteisen aliavaruuden aktivoitumien ja gradienttien rajoittamiseksi, mikä mahdollistaa täydellisen rekonstruktion seuraavissa kerroksissa. Menetelmällämme saavutetaan jopa 100-kertainen parannus viestinnän tehokkuuteen ja se mahdollistaa miljardin parametrin mittakaavan mallien kouluttamisen halvemmilla GPU:illa, jotka on yhdistetty kuluttajatason Internet-nopeuksilla jopa 80 Mbps:n nopeudella, mikä vastaa keskitettyjen datakeskusjärjestelmien konvergenssia 100 Gbps:n yhteyksillä ja mallin rinnakkaisissa.
2) Alitilojen sekoitukset kaistanleveyden tehokkaaseen kontekstin rinnakkaiskoulutukseen: Laajennetuilla kontekstiikkunoilla varustettujen kielimallien esikoulutus parantaa niiden kykyä hyödyntää monipuolista tietoa sukupolven aikana. Nykyiset menetelmät jakavat syöttösekvenssit osiin, lähettävät ne useille laitteille ja laskevat huomion lohko kerrallaan, mikä aiheuttaa merkittäviä viestintäkustannuksia. Vaikka nämä menetelmät ovat toteutettavissa nopeissa klustereissa, ne ovat epäkäytännöllisiä hajautetussa koulutuksessa pienen kaistanleveyden yhteyksien kautta. Ehdotamme pakkausmenetelmää viestintätehokkaaseen kontekstin rinnakkaisuuteen hajautetuissa ympäristöissä, jolloin saavutetaan huomattava yli 95 %:n pakkaussuhde mitättömällä yleiskululla ja konvergenssin menetyksellä. Tärkein oivalluksemme on hyödyntää aktivointitulosteiden luontaista matala-arvoista rakennetta rajoittamalla ne dynaamisesti opittuihin aliavaruusen seoksiin tehokkaiden uudelleenparametrisointien avulla. Esittelemme miljardin parametrin hajautettujen mallien skaalaamisen yli 100 000 tokenin kontekstipituuksiin jopa 300 Mbps:n verkoissa, mikä vastaa keskitettyjen mallien seinäkellon konvergenssinopeutta 100 Gbps:n yhteyksissä.
3) Purkamattomat protokollamallit: Yhteistyöhön perustuva koulutus ja päättely ilman painon toteutumista:
Harkitsemme hajautettua koulutusjärjestelyä, jossa osallistujat kouluttavat ja palvelevat yhdessä suurta neuroverkkoa ja jossa jokainen osallistuja käsittelee vain mallin osajoukkoa. Tässä asetelmassa tutkimme materialisoitumattomien painojen mahdollisuutta, jolloin täysi painosarja ei ole koskaan kenenkään osallistujan käytettävissä. Esittelemme Unextractable Protocol Models (UPM) -mallit: koulutus- ja päättelykehyksen, joka hyödyntää sirpaloitua mallikokoonpanoa varmistaakseen, että osallistujien hallussa olevat mallin sirpaleet (eli osajoukot) eivät ole yhteensopivia eri aikavaiheissa. UPM:t syöttävät ajoittain ajallisesti vaihtelevia, satunnaisia, käänteisiä muunnoksia osallistujien rajoille; säilyttäen yleisen verkkotoiminnon, mutta tehden aikavälisistä kokoonpanoista epäjohdonmukaisia. Qwen-2.5-0.5B:ssä ja Laama-3.2-1B:ssä 10 000 muunnosta jättää FP 32:n hämmennyksen ennalleen (PPL Jensen–Shannonin ajautuminen). Muunnoksen käyttäminen 30 sekunnin välein lisää 3 % viivettä, 0,1 % kaistanleveyttä ja 10 % GPU-muistin kuormitusta päättelyssä, kun taas harjoittelun yleiskustannukset laskevat 1,6 %:iin ja < 1 % muistiin. Tarkastelemme useita hyökkäyksiä, jotka osoittavat, että suorien hyökkäysten vaatimukset ovat epäkäytännöllisiä ja helppoja puolustautua, ja että ommeltujen osioiden gradienttipohjainen hienosäätö kuluttaa tokeneita, joita tarvitaan kouluttamiseen tyhjästä. Mahdollistamalla mallien yhteistoiminnallisen kouluttamisen, mutta ei poimimisen, UPM:n jäsenet tekevät ohjelmallisten kannustinmekanismien sisällyttämisestä käytännöllistä yhteisölähtöiseen hajautettuun koulutukseen.
Johtavat
Rankkaus
Suosikit