热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
从 vllm v0 迁移到 v1 导致我们的异步强化学习训练崩溃!阅读我们是如何解决这个问题的
我们最近从 v0 迁移到 v1,作为对 prime-rl 进行更大规模重构的一部分,以使其更易于使用、更高效,并自然支持异步。我们在许多小规模运行中确认了正确的训练动态,但在尝试重现一个在重构之前没有问题的大规模运行时遇到了瓶颈。具体来说,在我们的 INTELLECT-2 数学数据集中,使用 8k 上下文和两步离线延迟训练 DeepSeek-R1-Distill-Qwen-1.5B 解决单轮数学问题时,大约在训练进行 400 步时会致命崩溃。

40.36K
热门
排行
收藏