DApp Store | Centrum Web3 pro události a hry

Populární témata

Výsledky NeurIPS jsou venku; Pluralis má tři přijaté dokumenty. Prvním je hlavní výsledek výzkumu, který v současné době pohání náš 7,5B otevřený předtrénovací běh node0. Druhé dva jsou také hlavní výsledky, které budeme integrovat do dalších běhů. To je s malým týmem <10 lidí, které se provádí při budování node0. 1) Podprostorové sítě: Škálování decentralizovaného tréninku s komunikačně efektivním modelovým paralelismem: Škálování modelů vedlo k významnému pokroku v hlubokém učení, ale trénování těchto modelů v decentralizovaných prostředích zůstává náročné kvůli komunikačním překážkám. I když jsou stávající kompresní techniky účinné v datově paralelním prostředí, nerozšiřují se na modelový paralelismus. Na rozdíl od datově paralelního trénování, kde se vyměňují gradienty hmotnosti, vyžaduje model-parallel kompresi aktivačních a aktivačních gradientů, když se šíří vrstvami a hromadí se chyby komprese. Navrhujeme nový kompresní algoritmus, který komprimuje dopředné i zpětné průchody, což umožňuje až 99% kompresi bez degradace konvergence se zanedbatelnou pamětní/výpočetní režií. Využitím rekurzivní struktury v transformátorových sítích předem definujeme nízkodimenzionální podprostor, abychom omezili aktivace a gradienty, což umožňuje plnou rekonstrukci v následujících vrstvách. Naše metoda dosahuje až 100násobného zlepšení efektivity komunikace a umožňuje trénovat modely v měřítku miliard parametrů přes nízkofrekvenční GPU připojené prostřednictvím spotřebitelského internetu rychlostí pouhých 80 Mb/s, což odpovídá konvergenci centralizovaných systémů datových center s připojením 100 Gb/s s paralelním modelem. 2) Směsi podprostorů pro efektivní kontextové paralelní trénování šířky pásma: Předtrénování jazykových modelů s rozšířenými kontextovými okny zvyšuje jejich schopnost využívat bohaté informace během generování. Stávající metody rozdělují vstupní sekvence do bloků, vysílají je napříč více zařízeními a počítají pozornost blok po bloku, což způsobuje značné komunikační režii. I když jsou tyto metody proveditelné ve vysokorychlostních clusterech, jsou nepraktické pro decentralizované trénování přes připojení s nízkou šířkou pásma. Navrhujeme kompresní metodu pro komunikačně efektivní kontextový paralelismus v decentralizovaných prostředích, dosahující pozoruhodné míry komprese přes 95 % se zanedbatelnou režií a bez ztráty konvergence. Naším klíčovým poznatkem je využití vnitřní low-rank struktury aktivačních výstupů jejich dynamickým omezením na naučené směsi podprostorů prostřednictvím efektivních reparametrizací. Ukazujeme škálování decentralizovaných modelů s miliardami parametrů na kontextové délky přesahující 100 tisíc tokenů v sítích pomalých až 300 Mb/s, což odpovídá rychlosti konvergence nástěnných hodin centralizovaných modelů na 100Gb/s propojeních. 3) Nezobecnitelné protokolové modely: kolaborativní trénování a odvozování bez materializace váhy: Uvažujeme o decentralizovaném nastavení školení, ve kterém účastníci společně trénují a obsluhují velkou neuronovou síť a kde každý účastník zpracovává pouze podmnožinu modelu. V tomto nastavení zkoumáme možnost nehmotných vah, kdy celá sada vah není nikdy k dispozici žádnému účastníkovi. Představujeme neextrahovatelné protokolové modely (UPM): trénovací a odvozovací rámec, který využívá nastavení shardovaného modelu k zajištění toho, aby oddíly modelu (tj. podmnožiny) držené účastníky byly v různých časových krocích nekompatibilní. UPM periodicky vkládají časově proměnlivé, náhodné, invertovatelné transformace na hranice účastníků; zachování celkové síťové funkce, ale vytváření křížových sestavení nekoherentních. Na Qwen-2.5-0.5B a Llama-3.2-1B ponechá 10 000 transformací zmatenost FP 32 beze změny (PPL Jensenův–Shannonův drift). Použití transformace každých 30 s zvyšuje latenci o 3 %, šířku pásma 0,1 % a režii paměti GPU o 10 % při odvozování, zatímco režie trénování klesá na 1,6 % času a < 1 % paměti. Uvažujeme několik útoků, které ukazují, že požadavky přímých útoků jsou nepraktické a snadno se proti nim bránit a že jemné doladění spojených oddílů založené na gradientu spotřebovává tokeny potřebné k trénování od nuly. Tím, že UPM umožňují kolaborativní trénování, ale neextrahování, umožňují praktické začlenění programových motivačních mechanismů do decentralizovaného školení řízeného komunitou.

Top

Hodnocení

Oblíbené