RL é tão sensível a numéricos, da última vez que a compilação da tocha estava fazendo algum travamento de execução agora vllm v1
Mika Senghaas
Mika Senghaas12 de ago., 11:23
Mudar do VLLM v0 para o v1 fez com que nosso treinamento assíncrono de RL travasse! Leia como corrigimos isso Recentemente, migramos da v0 para a v1 como parte de uma refatoração maior do Prime-RL para torná-lo mais fácil de usar, com melhor desempenho e naturalmente assíncrono. Confirmamos a dinâmica de treinamento correta em muitas corridas de menor escala, mas batemos em uma parede ao tentar reproduzir uma corrida de maior escala que funcionou sem problemas antes da refatoração. Especificamente, treinar o DeepSeek-R1-Distill-Qwen-1.5B em problemas matemáticos de turno único de nosso conjunto de dados matemáticos INTELLECT-2 em contexto de 8k com atraso fora da política de duas etapas travaria fatalmente cerca de 400 etapas no treinamento
6,77K