Další skvělý příspěvek. "Budeme muset vytvořit spoustu nových prostředí, abychom se pokusili naučit rozmanité dovednosti prostřednictvím tréninku RL." Na @PrimeIntellect nemůže být více býčí Bonus: příspěvek také zmiňuje modelovou polévku/slučování, což je podle mě to, na čem PI původně pracoval v roce 2023(?)
jack morris
jack morris11. 7. 2025
nový blog: Jak škálovat RL na 10^26 FLOPs každý se snaží přijít na správný způsob, jak škálovat uvažování s RL Ilya přirovnal internet k fosilním palivům: Jsou to možná jediná užitečná data, která máme. a je postradatelný možná bychom se měli naučit uvažovat z Internetu (nejen z matematiky a kódu)
27,83K