Еще один отличный пост. "Нам нужно будет создать много новых сред, чтобы попробовать и изучить разнообразные навыки через обучение с подкреплением." Не могу быть более оптимистичным по поводу @PrimeIntellect Бонус: пост также упоминает о слиянии/объединении моделей, что, как я думаю, было тем, над чем PI изначально работал в 2023 году(?)
jack morris
jack morris11 июл. 2025 г.
новый блог: Как масштабировать RL до 10^26 FLOPs все пытаются выяснить, как правильно масштабировать рассуждения с помощью RL Илья сравнил интернет с ископаемым топливом: возможно, это единственная полезная информация, которая у нас есть. и это расходный материал возможно, нам следует учиться рассуждать в Интернете (а не только в математике и программировании)
33,1K