Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NeurIPS-resultatene er ute; Pluralis har tre aksepterte artikler. Det første er kjerneforskningsresultatet som for øyeblikket driver vår 7,5 B åpne pretraining-kjørenode0. De to andre er også viktige resultater som vi vil integrere i påfølgende kjøringer. Dette er med et lite team på <10 personer, gjort mens du bygger node0.
1) Subspace-nettverk: Skalering av desentralisert opplæring med kommunikasjonseffektiv modellparallellitet: Skalering av modeller har ført til betydelige fremskritt innen dyp læring, men å trene disse modellene i desentraliserte omgivelser er fortsatt utfordrende på grunn av kommunikasjonsflaskehalser. Selv om eksisterende komprimeringsteknikker er effektive i dataparallellitet, strekker de seg ikke til modellparallellitet. I motsetning til dataparallell trening, hvor vektgradienter utveksles, krever modellparallell komprimering av aktiveringer og aktiveringsgradienter når de forplanter seg gjennom lag, og akkumulerer kompresjonsfeil. Vi foreslår en ny komprimeringsalgoritme som komprimerer både forover- og bakoverpasseringer, noe som muliggjør opptil 99 % komprimering uten konvergensforringelse med ubetydelig minne/databehandlingskostnader. Ved å utnytte en rekursiv struktur i transformatornettverk, forhåndsdefinerer vi et lavdimensjonalt underrom for å begrense aktiveringene og gradientene, noe som tillater full rekonstruksjon i påfølgende lag. Metoden vår oppnår opptil 100 ganger forbedring i kommunikasjonseffektivitet og gjør det mulig å trene modeller i milliardparameterskala over low-end GPUer koblet til via internetthastigheter i forbrukerklasse så lave som 80 Mbps, og matcher konvergensen til sentraliserte datasentersystemer med 100 Gbps-tilkoblinger med modell parallell.
2) Blandinger av underrom for båndbreddeeffektiv kontekst Parallell opplæring: Forhåndsopplæring av språkmodeller med utvidede kontekstvinduer forbedrer deres evne til å utnytte rik informasjon under generering. Eksisterende metoder deler inngangssekvenser i biter, kringkaster dem på tvers av flere enheter og beregner oppmerksomhetsblokk for blokk som pådrar seg betydelige kommunikasjonskostnader. Selv om de er gjennomførbare i høyhastighetsklynger, er disse metodene upraktiske for desentralisert opplæring over tilkoblinger med lav båndbredde. Vi foreslår en komprimeringsmetode for kommunikasjonseffektiv kontekstparallellitet i desentraliserte omgivelser, og oppnår en bemerkelsesverdig komprimeringshastighet på over 95 % med ubetydelig overhead og ingen tap i konvergens. Vår nøkkelinnsikt er å utnytte den iboende lavrangsstrukturen til aktiveringsutganger ved dynamisk å begrense dem til lærte blandinger av underrom via effektive reparameteriseringer. Vi demonstrerer skalering av desentraliserte modeller med milliarder av parametere til kontekstlengder som overstiger 100K tokens på nettverk så sakte som 300 Mbps, og matcher veggklokkekonvergenshastigheten til sentraliserte modeller på 100 Gbps-sammenkoblinger.
3) Uuttrekkbare protokollmodeller: Samarbeidstrening og slutning uten vektmaterialisering:
Vi vurderer et desentralisert treningsoppsett der deltakerne sammen trener og betjener et stort nevralt nettverk, og hvor hver deltaker bare behandler en delmengde av modellen. I dette oppsettet utforsker vi muligheten for umaterialiserbare vekter, der et fullt vektsett aldri er tilgjengelig for en enkelt deltaker. Vi introduserer UPM-er (Unextractable Protocol Models): et rammeverk for opplæring og slutning som utnytter oppsettet for fragmenterte modeller for å sikre at modellfragmenter (dvs. delsett) som holdes av deltakerne, er inkompatible på forskjellige tidstrinn. UPM-er injiserer med jevne mellomrom tidsvarierende, tilfeldige, inverterbare transformasjoner ved deltakergrenser; bevarer den generelle nettverksfunksjonen, men gjør sammenstillinger på tvers av tid usammenhengende. På Qwen-2.5-0.5B og Llama-3.2-1B etterlater 10 000 transformasjoner FP 32-forvirringen uendret (PPL Jensen-Shannon-drift). Å bruke en transformering hvert 30. sekund gir 3 % ventetid, 0,1 % båndbredde og 10 % GPU-minneoverhead ved slutning, mens treningskostnader faller til 1,6 % tid og < 1 % minne. Vi vurderer flere angrep, noe som viser at kravene til direkte angrep er upraktiske og enkle å forsvare seg mot, og at gradientbasert finjustering av sammensatte partisjoner forbruker av tokenene som kreves for å trene fra bunnen av. Ved å gjøre det mulig for modeller å bli trent i samarbeid, men ikke trukket ut, gjør UPM-er det praktisk å bygge inn programmatiske insentivmekanismer i fellesskapsdrevet desentralisert opplæring.
Topp
Rangering
Favoritter