Otra gran publicación. "Tendremos que construir muchos entornos nuevos para tratar de aprender diversas habilidades a través de la capacitación de RL". No podría ser más optimista sobre @PrimeIntellect Bono: la publicación también menciona la sopa/fusión de modelos, que creo que es en lo que PI estaba trabajando originalmente en 2023 (?)
jack morris
jack morris11 jul 2025
nuevo blog: Cómo escalar RL a 10^26 FLOPs todos están tratando de descubrir la forma correcta de escalar el razonamiento con RL ilya comparó Internet con los combustibles fósiles: puede ser el único dato útil que tenemos. y es prescindible tal vez deberíamos aprender a razonar de Internet (no solo de matemáticas y código)
32.13K