Esta es mi última semana en @AIatMeta. Fue una decisión difícil no continuar con el nuevo laboratorio de Superinteligencia TBD, especialmente dado el talento y la densidad de cómputo. Pero después de 7,5 años en Google Brain, DeepMind y Meta, sentí la necesidad de asumir un tipo diferente de riesgo. El lanzamiento de Mark y @alexandr_wang para construir en el equipo de Superinteligencia fue increíblemente convincente. Pero finalmente elijo seguir el propio consejo de Mark: "En un mundo que está cambiando tan rápido, el mayor riesgo que puedes correr es no correr ningún riesgo". En mi corto tiempo en Meta, ampliamos la frontera en el entrenamiento posterior para modelos de "pensamiento". Específicamente: - Empujar un modelo denso de 8B a un rendimiento cercano a Deepseek-R1 con escalado RL. - Uso de datos sintéticos a mitad del entrenamiento para iniciar RL en caliente. - Desarrollar mejores métodos de destilación en la política. Realmente disfruté trabajar con @_arohan_, @brandfonbrener, Leo Li, @ErykHelenowski, @DatHuynh13, Xiaocheng, Jia, Boduo y Yanjun.
413.97K