Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El "entrenamiento de la imaginación" se refiere al proceso por el cual la política del agente se optimiza completamente dentro del modelo del mundo aprendido (es decir, en la "imaginación"), sin más interacción con el entorno real.
Para los robots reales, el video de un entorno de fábrica (incluidas las acciones y sus efectos) se usaría para construir un modelo de mundo realista, que luego se usa para desarrollar reglas de comportamiento (políticas) de robots a través del entrenamiento de la imaginación.
"Presentamos Dreamer 4, un agente escalable que aprende a resolver tareas de control complejas mediante el aprendizaje por refuerzo dentro de un modelo mundial rápido y preciso. El agente consta de un tokenizador y un modelo dinámico, como se muestra en la Figura 2. El tokenizador comprime fotogramas de video en representaciones continuas y el modelo dinámico predice las representaciones dadas acciones intercaladas, ambas utilizando la misma arquitectura de transformador eficiente. El tokenizador se entrena mediante la codificación automática enmascarada y la dinámica se entrena mediante un objetivo de forzamiento de acceso directo para permitir generaciones interactivas con un pequeño número de pases hacia adelante y evitar la acumulación de errores con el tiempo. Como se describe en el Algoritmo 1, primero entrenamos previamente el tokenizador y el modelo mundial en videos y acciones, luego ajustamos la política y el modelo de recompensa en el modelo mundial intercalando incrustaciones de tareas y, finalmente, entrenamos la política a través del entrenamiento de la imaginación".

Populares
Ranking
Favoritas