Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Đào tạo trí tưởng tượng" đề cập đến quá trình mà chính sách của tác nhân được tối ưu hóa hoàn toàn bên trong mô hình thế giới đã học (tức là trong "trí tưởng tượng"), mà không cần tương tác thêm với môi trường thực.
Đối với robot thực, video của một môi trường nhà máy (bao gồm các hành động và tác động của chúng) sẽ được sử dụng để xây dựng một mô hình thế giới thực tế, sau đó được sử dụng để phát triển các quy tắc hành vi của robot (chính sách) thông qua đào tạo trí tưởng tượng.
"Chúng tôi giới thiệu Dreamer 4, một tác nhân có thể mở rộng học cách giải quyết các nhiệm vụ điều khiển phức tạp thông qua học tăng cường bên trong một mô hình thế giới nhanh và chính xác. Tác nhân bao gồm một bộ mã hóa và một mô hình động lực, như được hiển thị trong Hình 2. Bộ mã hóa nén các khung video thành các đại diện liên tục và mô hình động lực dự đoán các đại diện dựa trên các hành động xen kẽ, cả hai đều sử dụng cùng một kiến trúc transformer hiệu quả. Bộ mã hóa được đào tạo bằng cách mã hóa tự động có mặt nạ và động lực được đào tạo bằng cách sử dụng một mục tiêu buộc tắt để cho phép các thế hệ tương tác với một số lượng nhỏ các lần truyền tiếp và ngăn chặn việc tích lũy lỗi theo thời gian. Như đã nêu trong Thuật toán 1, trước tiên chúng tôi tiền đào tạo bộ mã hóa và mô hình thế giới trên video và hành động, sau đó tinh chỉnh chính sách và mô hình phần thưởng vào mô hình thế giới bằng cách xen kẽ các nhúng nhiệm vụ, và cuối cùng là đào tạo lại chính sách thông qua đào tạo trí tưởng tượng."

Hàng đầu
Thứ hạng
Yêu thích