Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Imagination training" syftar på den process genom vilken agentens policy optimeras helt och hållet inom den inlärda världsmodellen (dvs. i "imagination"), utan ytterligare interaktion i den verkliga miljön.
För riktiga robotar skulle video av en fabriksmiljö (inklusive handlingar och deras effekter) användas för att bygga en realistisk världsmodell, som sedan används för att utveckla robotbeteenderegler (policyer) via fantasiträning.
"Vi presenterar Dreamer 4, en skalbar agent som lär sig att lösa komplexa kontrolluppgifter genom förstärkningsinlärning inuti en snabb och exakt världsmodell. Agenten består av en tokeniserare och en dynamisk modell, som du ser i figur 2. Tokeniseraren komprimerar videoramar till kontinuerliga representationer och dynamikmodellen förutsäger representationerna som ges interfolierade åtgärder, båda med samma effektiva transformatorarkitektur. Tokeniseraren tränas med maskerad autokodning och dynamiken tränas med hjälp av en genväg som tvingar fram mål för att möjliggöra interaktiva generationer med ett litet antal framåtpassningar och förhindra ackumulerande fel över tid. Som beskrivs i algoritm 1 förtränar vi först tokeniseraren och världsmodellen på videor och åtgärder, sedan finjusterar vi policyn och belöningsmodellen till världsmodellen genom att interfoliera uppgiftsinbäddningar, och slutligen eftertränar vi policyn genom fantasiträning."

Topp
Rankning
Favoriter