Parece que outras pessoas estão a convergir para usar o vllm v1 logprob para a razão de importância para resolver o problema de estabilidade. Acho que tenho PTSD deste tipo de crash de RL.
Zichen Liu
Zichen Liu22/08, 23:35
Com apenas algumas linhas de código, a solução sugerida por Feng (@fengyao1909) — aplicar amostragem de importância na política de comportamento — resolveu a instabilidade do treinamento no meu caso (oat). Acredito que o resultado pode ser generalizado para outras estruturas de RL também. Ótimo trabalho, Feng!
6,35K