Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ser ut til at andre mennesker konvergerer til å bruke vllm v1 logprob for viktighetsforholdet for å fikse stabilitetsproblemet.
Jeg tror jeg har ptsd fra denne typen rl-krasj

22. aug., 23:35
Med bare noen få linjer med kode løste Fengs (@fengyao1909) foreslåtte løsning – å bruke viktighetssampling på atferdspolicyen – treningsustabiliteten i mitt tilfelle (havre). Jeg tror resultatet kan generaliseres til andre RL-rammeverk også. Flott arbeid, Feng!

6,34K
Topp
Rangering
Favoritter