热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
强化学习使得大型语言模型在编程/数学竞赛中超越人类,并推动了最近的进展(OpenAI 的 o 系列,Anthropic 的 Claude 4)
强化学习能否像预训练那样实现广泛的泛化?目前的技术无法做到
🧵 1/7
🔗链接在这里和下面的线程:
纸:
中等:
子堆栈:
2/7
现有的对大型语言模型(LLMs)的评估主要评估其领域内的表现,使用在混合领域数据上训练的强化后训练(RPT)模型,并在与其训练领域密切相关的基准上进行评估。这些设置引入了混淆因素,掩盖了RPT真正的泛化能力的程度
3/7
我们引入了一个统一的评估框架,该框架使用 16 个跨数学、代码和知识密集型推理的基准来隔离和测试 RPT 的跨领域泛化。在这个框架内,我们评估了基本模型和 RPT 策略的各种组合
4/7

📌 我们的主要发现:
1️⃣ RPT 收益大多在域内
2️⃣ 数学和代码相互推广得很好
3️⃣ 结构化技能不会转移到非结构化的知识密集型任务中
5/7

外卖?RPT 功能强大但范围狭窄
它在训练中提高了性能,但概括性很差
6/7
这项工作是与 @ChuxuanHu、@maxYuxuanZhu、@aokellermann、Caleb Biddulph、@PunWai 和 @jasoncbenn 联合的
7/7
2.75K
热门
排行
收藏