Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ultimele noutăți de pe blogul Tencent HY Research: Legătura între infrastructura LLM și dezvoltarea algoritmilor. 🚀
Deschidem GradLoc: un instrument de diagnostic white-box care urmărește vârfurile de gradient până la tokenul vinovat exact în timp O(log N).
Scalarea RLVR nu mai trebuie să fie o luptă împotriva creșterilor de gradient "cutie neagră". Trecerea de la încercare și eroare euristică la diagnostice inginerești deterministe.
Blog:
GitHub:


🔍 De la creșteri globale la tokenuri unice
Monitorizarea standard îți spune doar când apare un vârf de gradient. GradLoc îți spune unde. Folosind căutarea binară distribuită, izolează tokenul specific care cauzează vârful cu un overhead amortizat neglijabil. Este un debugger "mereu activ" pentru antrenamentul LLM.
💡 Nou mod de colaps descoperit
Nu este întotdeauna "date murdare" sau "nepotrivire antrenament-inferență". GradLoc a dezvăluit Eterogenitatea Gradientului Strat pe Strat: Token-urile pot avea rapoarte de Importanță (IS) "sigure", dar totuși pot face ca anumite straturi să explodeze, în timp ce altele rămân stabile. Decuparea globală standard este un instrument prea grosier pentru asta.
🛡️ Soluția: LayerClip
Pentru a aborda eterogenitatea gradientului pe strat, propunem decuparea gradientului pe strat. În loc de un clamp global uniform, LayerClip aplică constrângeri adaptive bazate pe statisticile locale ale stratului. Acest control detaliat stabilizează antrenamentul RLVR acolo unde metodele standard eșuează.
🚀 Lucrări viitoare
RLVR are nevoie de o observabilitate inginerească mai bună pentru o înțelegere și analiză mai profundă. Oferim open source la GradLoc pentru a reduce bariera pentru diagnosticarea detaliată. Sperăm ca acest lucru să ajute comunitatea să privească în interiorul "cutiei negre" inginerești și să avanseze spre optimizare pornind de la principii fundamentale.
1,76K
Limită superioară
Clasament
Favorite
