Một bài viết tuyệt vời khác. “Chúng ta sẽ cần xây dựng nhiều môi trường mới để thử nghiệm và học các kỹ năng đa dạng thông qua đào tạo RL.” Không thể lạc quan hơn về @PrimeIntellect Thêm vào đó: bài viết cũng đề cập đến việc souping/merging mô hình, mà tôi nghĩ là điều mà PI đã làm việc ban đầu vào năm 2023(?)
jack morris
jack morris11 thg 7, 2025
blog mới: Cách mở rộng RL lên 10 ^ 26 FLOPs mọi người đang cố gắng tìm ra cách đúng đắn để mở rộng quy mô lý luận với RL ilya so sánh Internet với nhiên liệu hóa thạch: nó có thể là dữ liệu hữu ích duy nhất mà chúng ta có. và nó có thể tiêu hao có lẽ chúng ta nên học cách suy luận từ Internet (không chỉ toán học và mã)
32,21K