一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

强化学习使得大型语言模型在编程/数学竞赛中超越人类，并推动了最近的进展（OpenAI 的 o 系列，Anthropic 的 Claude 4）强化学习能否像预训练那样实现广泛的泛化？目前的技术无法做到 🧵 1/7

🔗链接在这里和下面的线程：纸：中等：子堆栈： 2/7

现有的对大型语言模型（LLMs）的评估主要评估其领域内的表现，使用在混合领域数据上训练的强化后训练（RPT）模型，并在与其训练领域密切相关的基准上进行评估。这些设置引入了混淆因素，掩盖了RPT真正的泛化能力的程度 3/7

我们引入了一个统一的评估框架，该框架使用 16 个跨数学、代码和知识密集型推理的基准来隔离和测试 RPT 的跨领域泛化。在这个框架内，我们评估了基本模型和 RPT 策略的各种组合 4/7

📌 我们的主要发现： 1️⃣ RPT 收益大多在域内 2️⃣ 数学和代码相互推广得很好 3️⃣ 结构化技能不会转移到非结构化的知识密集型任务中 5/7

外卖？RPT 功能强大但范围狭窄它在训练中提高了性能，但概括性很差 6/7

这项工作是与 @ChuxuanHu、@maxYuxuanZhu、@aokellermann、Caleb Biddulph、@PunWai 和 @jasoncbenn 联合的 7/7

2.75K