Un altro ottimo post. “Dovremo costruire molti nuovi ambienti per provare e apprendere abilità diverse tramite l'addestramento RL.” Non potrei essere più ottimista su @PrimeIntellect Bonus: il post menziona anche il souping/merging dei modelli, che penso sia ciò su cui PI stava lavorando originariamente nel 2023(?)
jack morris
jack morris11 lug 2025
nuovo blog: Come scalare RL a 10^26 FLOP tutti stanno cercando di capire il modo giusto per scalare il ragionamento con RL ilya ha paragonato Internet ai combustibili fossili: potrebbe essere l'unico dato utile che abbiamo. ed è sacrificabile forse dovremmo imparare a ragionare da Internet (non solo matematica e codice)
31,88K