“Num mundo que está a mudar tão rapidamente, o maior risco que podes correr é não correr nenhum risco” Verdade.
Rishabh Agarwal
Rishabh Agarwal26/08/2025
Esta é a minha última semana na @AIatMeta. Foi uma decisão difícil não continuar com o novo laboratório de Superinteligência TBD, especialmente dado o talento e a densidade de computação. Mas, após 7,5 anos entre o Google Brain, DeepMind e Meta, senti a necessidade de assumir um tipo diferente de risco. A proposta do Mark e do @alexandr_wang para construir na equipe de Superinteligência foi incrivelmente convincente. Mas, no final, escolhi seguir o próprio conselho do Mark: “Em um mundo que está mudando tão rápido, o maior risco que você pode correr é não correr nenhum risco”. No meu curto tempo na Meta, conseguimos avançar na fronteira do pós-treinamento para modelos de "pensamento". Especificamente: - Impulsionando um modelo denso de 8B para desempenho próximo ao Deepseek-R1 com escalonamento RL. - Usando dados sintéticos durante o treinamento para iniciar o RL. - Desenvolvendo melhores métodos de destilação on-policy. Realmente gostei de trabalhar com @_arohan_, @brandfonbrener, Leo Li, @ErykHelenowski, @DatHuynh13, Xiaocheng, Jia, Boduo e Yanjun.
4,98K