Outro ótimo post. "Precisaremos construir muitos novos ambientes para tentar aprender diversas habilidades por meio do treinamento de RL." Não poderia ser mais otimista com @PrimeIntellect Bônus: a postagem também menciona souping/merge de modelos, que eu acho que é o que o PI estava originalmente trabalhando em 2023 (?)
jack morris
jack morris11 de jul. de 2025
novo blog: Como escalar RL para 10^26 FLOPs todo mundo está tentando descobrir a maneira certa de escalar o raciocínio com RL ilya comparou a Internet ao combustível fóssil: pode ser o único dado útil que temos. e é dispensável talvez devêssemos aprender a raciocinar com a Internet (não apenas matemática e código)
33,14K