«Тренування уяви» відноситься до процесу, за допомогою якого політика агента повністю оптимізується всередині моделі вивченого світу (тобто в «уяві»), без подальшої взаємодії з реальним середовищем. Для реальних роботів відео фабричного середовища (включаючи дії та їх наслідки) буде використано для побудови реалістичної моделі світу, яка потім використовується для розробки правил поведінки роботів (політик) за допомогою тренування уяви. «Ми представляємо Dreamer 4, масштабований агент, який вчиться вирішувати складні завдання управління за допомогою навчання з підкріпленням всередині швидкої та точної моделі світу. Агент складається з токенізатора та динамічної моделі, як показано на рисунку 2. Токенізатор стискає відеокадри в безперервні представлення, а модель динаміки передбачає представлення заданих перемежованих дій, використовуючи одну і ту ж ефективну архітектуру трансформатора. Токенізатор тренується за допомогою замаскованого автокодування, а динаміка тренується за допомогою мети швидкого змушування, щоб увімкнути інтерактивні покоління з невеликою кількістю проходів вперед і запобігти накопиченню помилок з часом. Як описано в Алгоритмі 1, ми спочатку попередньо тренуємо токенізатор і модель світу на відео та діях, потім вдосконалюємо політику та модель винагороди в модель світу, передаючи вбудовування завдань, і, нарешті, після тренування політики за допомогою тренування уяви».