Tuần trước, các mô hình lý luận của chúng tôi đã tham gia vào Cuộc thi Lập trình Đại học Quốc tế 2025 (ICPC), cuộc thi lập trình cấp đại học hàng đầu thế giới. Hệ thống của chúng tôi đã giải quyết tất cả 12/12 bài toán, một thành tích sẽ xếp hạng nhất thế giới (đội ngũ con người tốt nhất đã giải quyết 11 bài toán). Cột mốc này khép lại 2 tháng thi đấu căng thẳng của các mô hình của chúng tôi: - Vị trí thứ hai tại Giải vô địch Thế giới AtCoder Heuristics - Huy chương vàng tại Olympic Toán học Quốc tế - Huy chương vàng tại Olympic Tin học Quốc tế - Và bây giờ, huy chương vàng, vị trí nhất tại Giải vô địch Thế giới ICPC. Tôi tin rằng những kết quả này, đến từ một gia đình các mô hình lý luận tổng quát được xây dựng trên chương trình nghiên cứu chính của chúng tôi, có lẽ là tiêu chuẩn rõ ràng nhất về sự tiến bộ trong năm nay. Những cuộc thi này là những bài kiểm tra tự chứa, có thời gian giới hạn tuyệt vời cho khả năng khám phá những ý tưởng mới. Ngay cả trước khi các mô hình của chúng tôi thành thạo trong toán học đơn giản, chúng tôi đã nhìn về những cuộc thi này như là những cột mốc tiến bộ hướng tới trí tuệ nhân tạo biến đổi. Các mô hình của chúng tôi hiện xếp hạng trong số những con người hàng đầu trong các lĩnh vực này, khi được đặt ra những câu hỏi rõ ràng và bị giới hạn trong khoảng ~5 giờ. Thách thức bây giờ là chuyển sang những vấn đề mở hơn, và thời gian dài hơn nhiều. Mức độ khả năng lý luận này, được áp dụng trong nhiều tháng và nhiều năm cho những vấn đề thực sự quan trọng, là điều mà chúng tôi đang hướng tới - tự động hóa khám phá khoa học. Sự tiến bộ nhanh chóng này cũng nhấn mạnh tầm quan trọng của nghiên cứu về an toàn và sự phù hợp. Chúng tôi vẫn cần hiểu biết nhiều hơn về các thuộc tính phù hợp của các mô hình lý luận dài hạn; đặc biệt, tôi khuyên bạn nên xem xét những phát hiện thú vị từ nghiên cứu về sự lập kế hoạch trong các mô hình lý luận mà chúng tôi đã công bố hôm nay ( Chúc mừng các đồng đội của tôi đã dồn hết tâm huyết để đạt được những kết quả thi đấu này, và đến tất cả những người đóng góp cho nghiên cứu cơ bản nền tảng cho phép họ!