«Нам потрібно буде створити багато нових середовищ, щоб спробувати освоїти різноманітні навички за допомогою навчання RL». Не може бути більш оптимістичним щодо @PrimeIntellect Бонус: у дописі також згадується суп/злиття моделі, над яким, на мою думку, PI спочатку працював у 2023 році(?)
jack morris
jack morris11 лип. 2025 р.
новий блог: Як масштабувати RL до 10^26 FLOPs всі намагаються з'ясувати, як правильно масштабувати міркування за допомогою РЛ Ілля порівняв інтернет з викопним паливом: можливо, це єдині корисні дані, які ми маємо. І це витратний матеріал можливо, нам варто навчитися міркувати з Інтернету (а не тільки з математики та коду)
31,95K