« Dans un monde qui change si vite, le plus grand risque que vous pouvez prendre est de ne prendre aucun risque. » Vérité.
Rishabh Agarwal
Rishabh Agarwal26 août, 01:38
C'est ma dernière semaine chez @AIatMeta. Ce fut une décision difficile de ne pas continuer avec le nouveau laboratoire de Superintelligence TBD, surtout compte tenu du talent et de la densité de calcul. Mais après 7,5 ans passés chez Google Brain, DeepMind et Meta, j'ai ressenti l'envie de prendre un risque différent. Le discours de Mark et @alexandr_wang pour construire l'équipe de Superintelligence était incroyablement convaincant. Mais j'ai finalement choisi de suivre le propre conseil de Mark : « Dans un monde qui change si vite, le plus grand risque que vous pouvez prendre est de ne prendre aucun risque ». Dans mon court passage chez Meta, nous avons vraiment repoussé les frontières de l'après-formation pour les modèles "pensants". Plus précisément : - Pousser un modèle dense de 8B à des performances proches de Deepseek-R1 avec un scaling RL. - Utiliser des données synthétiques en milieu de formation pour démarrer le RL. - Développer de meilleures méthodes de distillation on-policy. J'ai vraiment apprécié travailler avec @_arohan_, @brandfonbrener, Leo Li, @ErykHelenowski, @DatHuynh13, Xiaocheng, Jia, Boduo et Yanjun.
4,84K