另一篇精彩的帖子。“我们需要建立许多新的环境,以通过强化学习训练来尝试和学习多样化的技能。” 对@PrimeIntellect的前景更加看好。 附加信息:帖子还提到模型合并/混合,我认为这就是PI在2023年最初致力于的内容(?)
jack morris
jack morris2025年7月11日
新博客:如何将 RL 扩展到 10^26 FLOP 每个人都在努力找出使用 RL 扩展推理的正确方法 伊利亚将互联网比作化石燃料:它可能是我们拥有的唯一有用数据。而且它是消耗品 也许我们应该从互联网上学习推理(而不仅仅是数学和代码)
31.96K