RL так чувствителен к числам, в прошлый раз компиляция torch вызывала сбой выполнения, теперь vllm v1
Mika Senghaas
Mika Senghaas12 авг., 11:23
переход с vllm v0 на v1 привел к сбою нашего асинхронного обучения с подкреплением! читайте, как мы это исправили мы недавно мигрировали с v0 на v1 в рамках более крупной переработки prime-rl, чтобы сделать его более удобным, производительным и естественно асинхронным. мы подтвердили правильную динамику обучения на многих небольших запусках, но столкнулись с проблемой, пытаясь воспроизвести запуск большего масштаба, который работал без проблем до переработки. В частности, обучение DeepSeek-R1-Distill-Qwen-1.5B на одноразовых математических задачах из нашего математического набора данных INTELLECT-2 с контекстом 8k и двухшаговой задержкой вне политики завершалось фатальным сбоем примерно через 400 шагов обучения.
6,7K