Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Het lijkt erop dat andere mensen convergeren naar het gebruik van vllm v1 logprob voor de belangrijkheidsverhouding om het stabiliteitsprobleem op te lossen.
Ik denk dat ik PTSD heb van dit soort RL-crashes.

22 aug, 23:35
Met slechts een paar regels code heeft Feng's (@fengyao1909) voorgestelde oplossing—het toepassen van importance sampling op het gedrag beleid—de trainingsinstabiliteit in mijn geval (oat) opgelost. Ik geloof dat het resultaat ook kan generaliseren naar andere RL-frameworks. Geweldig werk, Feng!

6,34K
Boven
Positie
Favorieten