Parece que otras personas convergen en usar vllm v1 logprob para la relación de importancia para solucionar el problema de estabilidad. Creo que tengo PTSD de este tipo de colapso de RL.
Zichen Liu
Zichen Liu22 ago, 23:35
Con solo unas pocas líneas de código, la solución sugerida por Feng (@fengyao1909)—aplicando muestreo de importancia en la política de comportamiento—resolvió la inestabilidad del entrenamiento en mi caso (oat). Creo que el resultado puede generalizarse a otros marcos de RL también. ¡Gran trabajo, Feng!
6,34K