Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RL é tão sensível a numéricos, da última vez que a compilação da tocha estava fazendo algum travamento de execução agora vllm v1

12 de ago., 11:23
Mudar do VLLM v0 para o v1 fez com que nosso treinamento assíncrono de RL travasse! Leia como corrigimos isso
Recentemente, migramos da v0 para a v1 como parte de uma refatoração maior do Prime-RL para torná-lo mais fácil de usar, com melhor desempenho e naturalmente assíncrono. Confirmamos a dinâmica de treinamento correta em muitas corridas de menor escala, mas batemos em uma parede ao tentar reproduzir uma corrida de maior escala que funcionou sem problemas antes da refatoração. Especificamente, treinar o DeepSeek-R1-Distill-Qwen-1.5B em problemas matemáticos de turno único de nosso conjunto de dados matemáticos INTELLECT-2 em contexto de 8k com atraso fora da política de duas etapas travaria fatalmente cerca de 400 etapas no treinamento

6,77K
Melhores
Classificação
Favoritos