Un autre excellent post. « Nous devrons créer de nombreux nouveaux environnements pour essayer et apprendre des compétences diverses via l'entraînement RL. » Je ne pourrais pas être plus optimiste sur @PrimeIntellect Bonus : le post mentionne également le model souping/merging, ce qui, je pense, est ce sur quoi PI travaillait à l'origine en 2023 (?)
jack morris
jack morris11 juil. 2025
nouveau blog : Comment faire évoluer RL à 10^26 FLOPs tout le monde essaie de trouver la bonne façon d’adapter le raisonnement avec RL ilya a comparé Internet aux combustibles fossiles : c’est peut-être les seules données utiles dont nous disposons. Et c’est sacrifiable peut-être devrions-nous apprendre à raisonner à partir d’Internet (pas seulement des mathématiques et du code)
33,09K