Outro ótimo post. "Precisamos construir muitos novos ambientes para tentar e aprender habilidades diversas através do treinamento RL." Não poderia estar mais otimista em relação ao @PrimeIntellect Bônus: o post também menciona model souping/merging, que eu acho que é no que a PI estava originalmente trabalhando em 2023(?)
jack morris
jack morris11/07/2025
novo blog: Como escalar RL para 10^26 FLOPs todo mundo está tentando descobrir a maneira certa de escalar o raciocínio com RL Comparamos a Internet aos combustíveis fósseis: podem ser os únicos dados úteis de que dispomos. e é dispensável talvez devêssemos aprender a raciocinar com a Internet (não apenas matemática e código)
33,09K