Kolejny świetny post. „Będziemy musieli zbudować wiele nowych środowisk, aby spróbować i nauczyć się różnych umiejętności poprzez trening RL.” Nie mogę być bardziej optymistyczny w stosunku do @PrimeIntellect Bonus: post wspomina również o model souping/merging, co myślę, że było tym, nad czym PI pracował pierwotnie w 2023 roku (?)
jack morris
jack morris11 lip 2025
nowy blog: Jak skalować RL do 10^26 FLOPs wszyscy próbują znaleźć właściwy sposób skalowania rozumowania za pomocą RL ilya porównał Internet do paliw kopalnych: to mogą być jedyne użyteczne dane, jakimi dysponujemy. i jest zbędny być może powinniśmy nauczyć się rozumować z Internetu (nie tylko z matematyki i kodu)
33,09K