"Pelatihan imajinasi" mengacu pada proses di mana kebijakan agen dioptimalkan sepenuhnya di dalam model dunia yang dipelajari (yaitu dalam "imajinasi"), tanpa interaksi lingkungan nyata lebih lanjut. Untuk robot sungguhan, video lingkungan pabrik (termasuk tindakan dan efeknya) akan digunakan untuk membangun model dunia yang realistis, yang kemudian digunakan untuk mengembangkan aturan perilaku robot (kebijakan) melalui pelatihan imajinasi. "Kami menghadirkan Dreamer 4, agen yang dapat diskalakan yang belajar memecahkan tugas kontrol yang kompleks dengan pembelajaran penguatan di dalam model dunia yang cepat dan akurat. Agen terdiri dari tokenizer dan model dinamika, seperti yang ditunjukkan pada Gambar 2. Tokenizer mengompresi bingkai video menjadi representasi kontinu dan model dinamika memprediksi representasi yang diberikan tindakan interleaved, keduanya menggunakan arsitektur transformator efisien yang sama. Tokenizer dilatih menggunakan pengkodean otomatis bertopeng dan dinamika dilatih menggunakan tujuan pemaksaan pintasan untuk memungkinkan generasi interaktif dengan sejumlah kecil umpan maju dan mencegah akumulasi kesalahan dari waktu ke waktu. Seperti yang diuraikan dalam Algoritma 1, pertama-tama kami melatih tokenizer dan model dunia pada video dan tindakan, kemudian menyempurnakan model kebijakan dan penghargaan ke dalam model dunia dengan menyelipkan penyematan tugas, dan akhirnya pasca-melatih kebijakan melalui pelatihan imajinasi."