众包微调 + 强化学习正被忽视
TBPN
TBPN2025年8月28日
.@willccbb(Prime Intellect的研究负责人)谈到RL环境的实际运作: “环境本质上就是一个评估。你有输入任务,一个框架,最后它会评分你的模型或代理的表现。这就是我们用于评估和RL训练的设置。” 他补充说,未来不仅仅是“在一个巨大的集群中获得100,000个GPU。”
1.08K