一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

从 vllm v0 迁移到 v1 导致我们的异步强化学习训练崩溃！阅读我们是如何解决这个问题的我们最近从 v0 迁移到 v1，作为对 prime-rl 进行更大规模重构的一部分，以使其更易于使用、更高效，并自然支持异步。我们在许多小规模运行中确认了正确的训练动态，但在尝试重现一个在重构之前没有问题的大规模运行时遇到了瓶颈。具体来说，在我们的 INTELLECT-2 数学数据集中，使用 8k 上下文和两步离线延迟训练 DeepSeek-R1-Distill-Qwen-1.5B 解决单轮数学问题时，大约在训练进行 400 步时会致命崩溃。

40.36K