переход с vllm v0 на v1 привел к сбою нашего асинхронного обучения с подкреплением! читайте, как мы это исправили мы недавно мигрировали с v0 на v1 в рамках более крупной переработки prime-rl, чтобы сделать его более удобным, производительным и естественно асинхронным. мы подтвердили правильную динамику обучения на многих небольших запусках, но столкнулись с проблемой, пытаясь воспроизвести запуск большего масштаба, который работал без проблем до переработки. В частности, обучение DeepSeek-R1-Distill-Qwen-1.5B на одноразовых математических задачах из нашего математического набора данных INTELLECT-2 с контекстом 8k и двухшаговой задержкой вне политики завершалось фатальным сбоем примерно через 400 шагов обучения.
40,45K