"Trening wyobraźni" odnosi się do procesu, w którym polityka agenta jest optymalizowana całkowicie wewnątrz wyuczonego modelu świata (tj. w "wyobraźni"), bez dalszej interakcji z rzeczywistym środowiskiem. Dla rzeczywistych robotów, wideo z środowiska fabrycznego (w tym działania i ich efekty) byłoby używane do zbudowania realistycznego modelu świata, który następnie jest wykorzystywany do opracowania zasad zachowania robotów (polityk) za pomocą treningu wyobraźni. "Prezentujemy Dreamer 4, skalowalnego agenta, który uczy się rozwiązywać złożone zadania kontrolne poprzez uczenie ze wzmocnieniem wewnątrz szybkiego i dokładnego modelu świata. Agent składa się z tokenizera i modelu dynamiki, jak pokazano na Rysunku 2. Tokenizer kompresuje klatki wideo w ciągłe reprezentacje, a model dynamiki przewiduje reprezentacje w oparciu o przeplatane działania, oba korzystając z tej samej efektywnej architektury transformatora. Tokenizer jest trenowany przy użyciu maskowanego autoenkodowania, a dynamika jest trenowana przy użyciu celu wymuszającego skrót, aby umożliwić interaktywne generacje przy niewielkiej liczbie przejść do przodu i zapobiec gromadzeniu się błędów w czasie. Jak opisano w Algorytmie 1, najpierw wstępnie trenujemy tokenizera i model świata na wideo i działaniach, następnie dostosowujemy politykę i model nagród do modelu świata poprzez przeplatanie osadzeń zadań, a na koniec po-trenujemy politykę poprzez trening wyobraźni."