DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

"Mielikuvitusharjoittelu" viittaa prosessiin, jossa toimijan politiikka optimoidaan kokonaan opitun maailman mallin sisällä (eli "mielikuvituksessa") ilman enempää vuorovaikutusta todellisen ympäristön kanssa. Todellisten robottien kohdalla tehdasympäristön videota (mukaan lukien toiminnot ja niiden vaikutukset) käytettäisiin realistisen maailmanmallin rakentamiseen, jota sitten käytetään robottien käyttäytymissääntöjen (käytäntöjen) kehittämiseen mielikuvitusharjoittelun avulla. "Esittelemme Dreamer 4:n, skaalautuvan agentin, joka oppii ratkaisemaan monimutkaisia ohjaustehtäviä vahvistamalla oppimista nopean ja tarkan maailmanmallin sisällä. Agentti koostuu tokenisaattorista ja dynamiikkamallista, kuten kuvassa 2 näkyy. Tokenisoija pakkaa videokehykset jatkuviksi esityksiksi ja dynamiikkamalli ennustaa esitykset lomitettujen toimintojen avulla, molemmat käyttäen samaa tehokasta muuntaja-arkkitehtuuria. Tokenisaattori koulutetaan käyttämällä naamioitua automaattista koodausta ja dynamiikkaa pikakuvakkeen pakotustavoitteella, jotta vuorovaikutteiset sukupolvet voidaan mahdollistaa pienellä määrällä eteenpäin siirtymisiä ja estää virheiden kertyminen ajan myötä. Kuten algoritmissa 1 on kuvattu, koulutamme ensin tokenisaattorin ja maailmanmallin videoiden ja toimintojen perusteella, sitten hienosäädämme käytäntö- ja palkitsemismallin maailmanmalliksi lomittamalla tehtävien upotuksia ja lopuksi harjoittelemme käytäntöä mielikuvitusharjoittelun avulla."

Johtavat

Rankkaus

Suosikit