Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Verkar som om andra människor konvergerar till att använda vllm v1 logprob för viktighetsförhållandet för att åtgärda stabilitetsproblem.
Jag tror att jag har ptsd från den här typen av rl-krasch

22 aug. 23:35
Med bara några rader kod löste Fengs (@fengyao1909) föreslagna lösning – att tillämpa prioritetssampling på beteendepolicyn – träningsinstabiliteten i mitt fall (oat). Jag tror att resultatet kan generaliseras till andra RL-ramverk också. Bra jobbat, Feng!

6,54K
Topp
Rankning
Favoriter