一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

“想象训练”是指代理的策略完全在学习到的世界模型内部（即在“想象”中）进行优化的过程，而无需进一步与真实环境互动。对于真实机器人，工厂环境的视频（包括动作及其效果）将用于构建一个现实的世界模型，然后利用想象训练来开发机器人行为规则（策略）。 “我们介绍了Dreamer 4，一个可扩展的代理，通过在快速且准确的世界模型内部进行强化学习来学习解决复杂的控制任务。该代理由一个分词器和一个动态模型组成，如图2所示。分词器将视频帧压缩为连续表示，动态模型则根据交错的动作预测这些表示，二者均使用相同的高效变换器架构。分词器使用掩码自编码进行训练，动态模型则使用快捷强制目标进行训练，以便在少量前向传递中实现交互生成，并防止随时间累积错误。如算法1所述，我们首先在视频和动作上预训练分词器和世界模型，然后通过交错任务嵌入微调策略和奖励模型到世界模型中，最后通过想象训练对策略进行后训练。