从 vllm v0 迁移到 v1 导致我们的异步强化学习训练崩溃!阅读我们是如何解决这个问题的 我们最近从 v0 迁移到 v1,作为对 prime-rl 进行更大规模重构的一部分,以使其更易于使用、更高效,并自然支持异步。我们在许多小规模运行中确认了正确的训练动态,但在尝试重现一个在重构之前没有问题的大规模运行时遇到了瓶颈。具体来说,在我们的 INTELLECT-2 数学数据集中,使用 8k 上下文和两步离线延迟训练 DeepSeek-R1-Distill-Qwen-1.5B 解决单轮数学问题时,大约在训练进行 400 步时会致命崩溃。
40.36K