Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NeurIPS-resultaten är ute; Pluralis har tre accepterade artiklar. Den första är det grundläggande forskningsresultatet som för närvarande driver vår 7,5B öppna förträningskörning node0. De andra två är också viktiga resultat som vi kommer att integrera i kommande körningar. Detta är med ett litet team på <10 personer, som gjordes medan du byggde node0.
1) Subspace Networks: Skalning av decentraliserad träning med kommunikationseffektiv modellparallellism: Skalning av modeller har lett till betydande framsteg inom djupinlärning, men att träna dessa modeller i decentraliserade miljöer är fortfarande utmanande på grund av flaskhalsar i kommunikationen. Befintliga komprimeringstekniker är effektiva i dataparallellitet, men de omfattar inte modellparallellitet. Till skillnad från dataparallell träning, där viktgradienter utbyts, kräver model-parallel komprimering av aktiveringar och aktiveringsgradienter när de sprids genom lager och ackumulerar komprimeringsfel. Vi föreslår en ny komprimeringsalgoritm som komprimerar både framåt- och bakåtpassningar, vilket möjliggör upp till 99 % komprimering utan konvergensförsämring med försumbar minnes-/beräkningsoverhead. Genom att utnyttja en rekursiv struktur i transformatornätverk fördefinierar vi ett lågdimensionellt underrum för att begränsa aktiveringarna och gradienterna, vilket möjliggör fullständig rekonstruktion i efterföljande lager. Vår metod uppnår upp till 100 gånger förbättring av kommunikationseffektiviteten och gör det möjligt att träna modeller i miljardparameterskala över billiga GPU:er som är anslutna via internethastigheter i konsumentklass så låga som 80 Mbit/s, vilket matchar konvergensen av centraliserade datacentersystem med 100 Gbps-anslutningar med parallella modeller.
2) Blandningar av underrymder för bandbreddseffektiv kontext parallell träning: Förtränade språkmodeller med utökade kontextfönster förbättrar deras förmåga att utnyttja rik information under genereringen. Befintliga metoder delar upp indatasekvenser i bitar, sänder dem över flera enheter och beräknar uppmärksamhet block för block, vilket medför betydande kommunikationskostnader. Även om de är genomförbara i höghastighetskluster är dessa metoder opraktiska för decentraliserad träning över anslutningar med låg bandbredd. Vi föreslår en komprimeringsmetod för kommunikationseffektiv kontextparallellitet i decentraliserade miljöer, som uppnår en anmärkningsvärd komprimeringsgrad på över 95 % med försumbara omkostnader och ingen förlust av konvergens. Vår viktigaste insikt är att utnyttja den inneboende lågrankade strukturen hos aktiveringsutgångar genom att dynamiskt begränsa dem till inlärda blandningar av underrum via effektiva omparametriseringar. Vi demonstrerar skalning av decentraliserade modeller med miljarder parametrar till kontextlängder som överstiger 100 000 tokens på nätverk så långsamma som 300 Mbit/s, vilket matchar konvergenshastigheten för väggklocka för centraliserade modeller på 100 Gbps-anslutningar.
3) Icke-extraherbara protokollmodeller: Samarbetsträning och inferens utan viktmaterialisering:
Vi betraktar en decentraliserad träningsuppställning där deltagarna tillsammans tränar och betjänar ett stort neuralt nätverk, och där varje deltagare endast bearbetar en delmängd av modellen. I det här upplägget utforskar vi möjligheten till omaterialiserbara vikter, där ett fullständigt viktset aldrig är tillgängligt för någon deltagare. Vi introducerar UPM (Unextractable Protocol Models): ett ramverk för träning och slutsatsdragning som utnyttjar den fragmenterade modellkonfigurationen för att säkerställa att modellshards (dvs. delmängder) som innehas av deltagare är inkompatibla vid olika tidssteg. UPM:er injicerar regelbundet tidsvarierande, slumpmässiga, inverterbara transformeringar vid deltagarnas gränser; bevara den övergripande nätverksfunktionen men ändå göra sammansättningar över tid inkonsekventa. På Qwen-2.5-0.5B och Llama-3.2-1B lämnar 10 000 transformeringar FP 32-förvirringen oförändrad (PPL Jensen–Shannon-drift). Att tillämpa en transformering var 30:e sekund lägger till 3 % latens, 0,1 % bandbredd och 10 % GPU-minneskostnader vid slutsatsdragning, medan träningskostnaderna sjunker till 1,6 % tid och < 1 % minne. Vi överväger flera attacker som visar att kraven för direkta attacker är opraktiska och lätta att försvara sig mot, och att gradientbaserad finjustering av sammanfogade partitioner förbrukar de token som krävs för att träna från grunden. Genom att göra det möjligt att träna modeller i samarbete men inte extrahera dem, gör UPM:er det praktiskt att integrera programmatiska incitamentsmekanismer i community-driven decentraliserad utbildning.
Topp
Rankning
Favoriter