Wygląda na to, że inni zaczynają używać vllm v1 logprob do obliczania współczynnika ważności, aby naprawić problem ze stabilnością. Myślę, że mam PTSD z powodu tego typu awarii RL.
Zichen Liu
Zichen Liu22 sie, 23:35
Zaledwie kilka linijek kodu, sugerowana poprawka Feng’a (@fengyao1909) — zastosowanie próbkowania ważności w polityce zachowania — rozwiązała problem niestabilności treningu w moim przypadku (oat). Wierzę, że wynik może być uogólniony na inne ramy RL. Świetna robota, Feng!
6,34K