O altă postare grozavă. "Va trebui să construim o mulțime de medii noi pentru a încerca să învățăm diverse abilități prin antrenamentul RL." Nu ar putea fi mai optimist în privința @PrimeIntellect Bonus: postarea menționează, de asemenea, modelul de supă/fuziune, ceea ce cred că este ceea ce PI a lucrat inițial în 2023 (?)
jack morris
jack morris11 iul. 2025
blog nou: Cum să scalați RL la 10^26 FLOP-uri toată lumea încearcă să-și dea seama cum să scaleze raționamentul cu RL ilya a comparat internetul cu combustibilul fosil: poate fi singura dată utilă pe care o avem. și este dispensabil poate ar trebui să învățăm să raționăm de pe Internet (nu doar matematică și cod)
33,12K