"Em um mundo que está mudando tão rápido, o maior risco que você pode correr é não correr nenhum risco" Verdade.
Rishabh Agarwal
Rishabh Agarwal26 de ago., 01:38
Esta é minha última semana na @AIatMeta. Foi uma decisão difícil não continuar com o novo laboratório de Superinteligência TBD, especialmente devido ao talento e à densidade de computação. Mas depois de 7,5 anos no Google Brain, DeepMind e Meta, senti a atração de assumir um tipo diferente de risco. O argumento de Mark e @alexandr_wang para construir a equipe de Superinteligência foi incrivelmente atraente. Mas, no final das contas, escolho seguir o próprio conselho de Mark: "Em um mundo que está mudando tão rápido, o maior risco que você pode correr é não correr nenhum risco". Em meu curto período na Meta, ultrapassamos a fronteira no pós-treinamento para modelos de "pensamento". Especificamente: - Empurrar um modelo denso de 8B para um desempenho próximo ao Deepseek-R1 com dimensionamento de RL. - Usando dados sintéticos no meio do treinamento para iniciar o RL a quente. - Desenvolver melhores métodos de destilação de acordo com a política. Gostei muito de trabalhar com @_arohan_, @brandfonbrener, Leo Li, @ErykHelenowski, @DatHuynh13, Xiaocheng, Jia, Boduo e Yanjun.
4,89K