Otro gran post. “Necesitaremos construir muchos nuevos entornos para intentar y aprender diversas habilidades a través del entrenamiento RL.” No podría estar más optimista sobre @PrimeIntellect Bonus: el post también menciona la fusión/sopa de modelos, que creo que es en lo que PI estaba trabajando originalmente en 2023(?)
jack morris
jack morris11 jul 2025
nuevo blog: Cómo escalar RL a 10^26 FLOPs todos están tratando de descubrir la forma correcta de escalar el razonamiento con RL ilya comparó Internet con los combustibles fósiles: puede ser el único dato útil que tenemos. y es prescindible tal vez deberíamos aprender a razonar de Internet (no solo de matemáticas y código)
33,09K