DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Siirtyminen VLM V0:sta V1:een sai asynkronisen RL-harjoittelumme kaatumaan! Lue, miten korjasimme sen Siirryimme äskettäin v0:sta v1:een osana suurempaa Prime-RL:n refaktorointia, jotta se olisi helpompi käyttää, suorituskykyisempi ja luonnollisesti asynkroninen. Vahvistimme oikean harjoitusdynamiikan monilla pienemmän mittakaavan ajoilla, mutta törmäsimme seinään, kun yritimme toistaa suuremman mittakaavan juoksun, joka toimi ongelmitta ennen refaktorointia. Tarkemmin sanottuna DeepSeek-R1-Distill-Qwen-1.5B:n kouluttaminen yhden kierroksen matemaattisiin ongelmiin INTELLECT-2-matemaattisesta tietojoukostamme 8k-kontekstissa kaksivaiheisella politiikan ulkopuolisella viiveellä kaatuisi kohtalokkaasti noin 400 askelta koulutukseen

40,46K

Johtavat

Rankkaus

Suosikit