«Fantasitrening» refererer til prosessen der agentens policy optimaliseres helt innenfor den lærte verdensmodellen (dvs. i «fantasi»), uten ytterligere interaksjon i virkelige omgivelser. For ekte roboter vil video av et fabrikkmiljø (inkludert handlinger og deres effekter) bli brukt til å bygge en realistisk verdensmodell, som deretter brukes til å utvikle robotatferdsregler (retningslinjer) via fantasitrening. "Vi presenterer Dreamer 4, en skalerbar agent som lærer å løse komplekse kontrolloppgaver ved å forsterke læring inne i en rask og nøyaktig verdensmodell. Agenten består av en tokenizer og en dynamikkmodell, som vist i figur 2. Tokenizeren komprimerer videorammer til kontinuerlige representasjoner, og dynamikkmodellen forutsier representasjonene gitt sammenflettede handlinger, begge ved hjelp av den samme effektive transformatorarkitekturen. Tokenizeren trenes ved hjelp av maskert autokoding, og dynamikken trenes ved hjelp av et snarveismål for å muliggjøre interaktive generasjoner med et lite antall passeringer fremover og forhindre akkumulering av feil over tid. Som skissert i algoritme 1, forhåndstrener vi først tokenizeren og verdensmodellen på videoer og handlinger, deretter finjusterer vi policy- og belønningsmodellen til verdensmodellen ved å flette inn oppgaveinnbygginger, og til slutt ettertrene policyen gjennom fantasitrening.»