Parece que outras pessoas convergem para usar vllm v1 logprob para a proporção de importância para corrigir o problema de estabilidade. Acho que tenho PTSD desse tipo de acidente de rl
Zichen Liu
Zichen Liu22 de ago., 23:35
Com apenas algumas linhas de código, a correção sugerida por Feng (@fengyao1909) - aplicando amostragem de importância na política de comportamento - resolveu a instabilidade de treinamento no meu caso (oat). Acredito que o resultado também pode ser generalizado para outras estruturas de RL. Ótimo trabalho, Feng!
6,34K