另一篇精彩的帖子。“我們需要建立許多新的環境,以通過強化學習訓練來嘗試和學習多樣化的技能。” 對@PrimeIntellect的前景更加看好。 附加信息:帖子還提到模型合併/混合,我認為這就是PI在2023年最初致力於的內容(?)
jack morris
jack morris2025年7月11日
新部落格:如何將 RL 擴展到 10^26 FLOP 每個人都在嘗試找出使用 RL 擴展推理的正確方法 伊利亞將互聯網比作化石燃料:它可能是我們擁有的唯一有用數據。而且它是消耗品 也許我們應該從互聯網中學習推理(不僅僅是數學和代碼)
31.95K