Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wygląda na to, że inni zaczynają używać vllm v1 logprob do obliczania współczynnika ważności, aby naprawić problem ze stabilnością.
Myślę, że mam PTSD z powodu tego typu awarii RL.

22 sie, 23:35
Zaledwie kilka linijek kodu, sugerowana poprawka Feng’a (@fengyao1909) — zastosowanie próbkowania ważności w polityce zachowania — rozwiązała problem niestabilności treningu w moim przypadku (oat). Wierzę, że wynik może być uogólniony na inne ramy RL. Świetna robota, Feng!

6,34K
Najlepsze
Ranking
Ulubione