热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
RL 研究中最大的问题一直是 - 您在什么环境中进行训练?
它曾经是视频(Atari)和棋盘(围棋/国际象棋)游戏。
但现在 RL 与 LLM 一起工作,只有一个环境很重要。这是您的产品。

2025年7月10日
为什么你应该停止从事 RL 研究,而是从事产品工作 //
开启人工智能大规模转变的技术是互联网,而不是变压器
我认为众所周知,数据是人工智能中最重要的东西,而且研究人员无论如何都选择不研究它。...处理数据(以可扩展的方式)意味着什么?
互联网提供了丰富的丰富数据来源,数据多样化,提供了自然的课程,代表了人们真正关心的能力,并且是一种经济上可行的大规模部署技术——它成为下一个代币预测的完美补充,也是人工智能起飞的原始汤。
如果没有 Transformer,任何数量的方法都可以起飞,我们可能会拥有 GPT-4.5 级别的 CNN 或状态空间模型。但自 GPT-4 以来,基础模型并没有显着改进。推理模型在狭窄的领域中表现出色,但不像 GPT-4 在 2023 年 3 月(两年多前......
我们在强化学习方面有一些很棒的东西,但我深担心我们会重蹈覆辙(2015-2020 年 RL 时代)的覆辙,并进行无关紧要的 RL 研究。
就像互联网是监督预训练的对偶一样,RL 的对偶性将导致像 GPT-1 > GPT-4 这样的巨大进步?我认为这看起来像是研究-产品共同设计。

11.13K
热门
排行
收藏