Перехід з VLLM V0 на V1 призвів до збою нашого тренування Async RL! Читайте, як ми це виправили Нещодавно ми перейшли з V0 на V1 в рамках більшого рефакторингу Prime-RL, щоб зробити його простішим у використанні, більш продуктивним і, природно, асинхронним. Ми підтвердили правильну динаміку тренувань на багатьох пробіжках меншого масштабу, але вдарилися об стіну, намагаючись відтворити біг більшого масштабу, який пробігав без проблем до рефакторингу. Зокрема, тренування DeepSeek-R1-Distill-Qwen-1.5B на однооборотних математичних задачах з нашого математичного набору INTELLECT-2 в контексті 8k з двоетапною затримкою відхилення від політики фатально зазнає фатального збою приблизно через 400 кроків тренування
40,36K