Weer een geweldige post. “We zullen veel nieuwe omgevingen moeten bouwen om diverse vaardigheden te proberen en te leren via RL-training.” Ik kan niet optimistischer zijn over @PrimeIntellect Bonus: de post vermeldt ook model souping/merging, wat ik denk dat PI oorspronkelijk in 2023 aan het ontwikkelen was (?)
jack morris
jack morris11 jul 2025
nieuwe blog: Hoe RL op te schalen naar 10^26 FLOP's iedereen probeert de juiste manier te vinden om redeneren met RL te schalen ilya vergeleek het internet met fossiele brandstof: het is misschien wel de enige bruikbare gegevens die we hebben. En het is vervangbaar misschien moeten we leren redeneren vanuit internet (niet alleen wiskunde en code)
32,23K