Siirtyminen VLM V0:sta V1:een sai asynkronisen RL-harjoittelumme kaatumaan! Lue, miten korjasimme sen Siirryimme äskettäin v0:sta v1:een osana suurempaa Prime-RL:n refaktorointia, jotta se olisi helpompi käyttää, suorituskykyisempi ja luonnollisesti asynkroninen. Vahvistimme oikean harjoitusdynamiikan monilla pienemmän mittakaavan ajoilla, mutta törmäsimme seinään, kun yritimme toistaa suuremman mittakaavan juoksun, joka toimi ongelmitta ennen refaktorointia. Tarkemmin sanottuna DeepSeek-R1-Distill-Qwen-1.5B:n kouluttaminen yhden kierroksen matemaattisiin ongelmiin INTELLECT-2-matemaattisesta tietojoukostamme 8k-kontekstissa kaksivaiheisella politiikan ulkopuolisella viiveellä kaatuisi kohtalokkaasti noin 400 askelta koulutukseen
40,46K