Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Een enorme open source foundation model training ontgrendeld door @_xjdr
XJDR is een gekke wetenschapper, dus het kostte me een paar pogingen om het echt te begrijpen, en ik waardeer het resultaat misschien nog steeds niet volledig.
Normaal gesproken, als je een gloednieuw basis model vanaf nul wilt trainen, heb je een ton GPU's nodig om een serieuze trainingsronde van de grond te krijgen. Het is duur.
Een van de moeilijkste soorten om te trainen is het DeepSeek-stijl Mixture of Experts ontwerp. Het is krachtig, maar het routeringssysteem en de trainingsopzet zijn zo gevoelig dat kleinschalige tests vaak in de soep lopen. Dus je hebt een grote cluster nodig om iets te leren, en wanneer een run faalt, kun je niet zeggen of je idee verkeerd was of dat de opzet gewoon kapot ging, waardoor het onderzoek stopt en je niets leert.
XJDR maakt nmoe open source, een kant-en-klare trainingsfabriek die is aangesloten zoals een expert het zou doen, specifiek zodat deze klasse modellen getraind en onderzocht kunnen worden op een enkele machine zonder constante storingen. Kleine experimenten gedragen zich als echte training, zodat je een duidelijke ja of nee kunt krijgen voordat je acht cijfers en maanden tijd uitgeeft.
In werkelijkheid kunnen mensen goedkope, snelle proeven uitvoeren waarbij je één ding tegelijk verandert, zoals hoe de modelroutering werkt tussen specialisten, hoe het leert (trainingsrecept), welke data je het geeft, en hoe je meer kwaliteit per dollar kunt behalen. Je test in feite nieuwe ideeën voor betere basis modellen op dezelfde manier als je een product A/B test, maar je kunt het buiten een groot lab doen.
De netto-impact is snellere iteratie en aanzienlijke kostenbesparingen, plus meer teams kunnen realistisch nieuwe foundation modellen bouwen. Dat kan betekenen dat er een beter DeepSeek-klasse model komt, gloednieuwe specialist-stijl modellen, en veel meer concurrentie en open onderzoek omdat de instapkosten hard dalen en meer doorbraken in het openbaar plaatsvinden.
Blijf op de hoogte, hij maakt het meeste ervan open source!
Gefeliciteerd @_xjdr. We zijn erg blij om je te ondersteunen en een klein deel van je verhaal te zijn.
Boven
Positie
Favorieten
