Nhận thức thực sự ở đây không phải là "LLMs kém trong khoa học" (đó là điều hiển nhiên). Câu chuyện sâu sắc hơn là về những gì điều này tiết lộ về toàn bộ mô hình mở rộng AI và nơi mà ngành công nghiệp thực sự đang hướng tới. Bài báo này cho thấy điểm số benchmark cao không tương quan với khả năng phát hiện khoa học. Các mô hình chiếm ưu thế trong các bài kiểm tra lý luận hoàn toàn thất bại khi bị buộc phải lặp lại, sửa đổi và thừa nhận sai lầm. Điều này giải thích tại sao OpenAI, DeepMind và Anthropic đều đang chạy đua hướng tới các hệ thống có khả năng tác động thay vì các mô hình cơ sở lớn hơn. Họ đã thấy các phiên bản nội bộ của dữ liệu này. Tăng quy mô các tham số không làm tăng khả năng nói "Tôi đã sai và đây là giả thuyết mới của tôi." Năm chế độ thất bại được liệt kê thực sự là cùng một chế độ thất bại mang những chiếc mặt nạ khác nhau: LLMs tối ưu hóa cho các đầu ra nghe có vẻ hợp lý, không phải là các quy trình theo dõi sự thật. Quá khớp với các mẫu bề mặt, từ chối từ bỏ các giả thuyết xấu, nhầm lẫn tương quan với nguyên nhân… tất cả đều xuất phát từ việc dự đoán token tiếp theo trên văn bản mô tả các kết luận khoa học, không phải văn bản ghi lại quá trình lặp lại lộn xộn để đạt được chúng. Lý luận khoa học thực sự yêu cầu điều mà dữ liệu huấn luyện gần như không bao giờ chứa: 47 thí nghiệm thất bại trước thí nghiệm thành công, giả thuyết trông rực rỡ trong ba tháng rồi sụp đổ, khoảnh khắc một nhà nghiên cứu nói "mọi thứ tôi tin tưởng về hệ thống này đều sai." Bài báo gợi ý rằng sự tình cờ và khám phá có hướng vẫn hoạt động ngay cả khi điểm số của các kịch bản cá nhân thấp. Điều đó có nghĩa là LLMs có thể giúp các nhà khoa học tình cờ phát hiện ra những điều mà họ sẽ không nghĩ đến, nhưng chúng không thể thay thế vòng lặp sửa đổi. Điều này thực sự là tích cực cho một loại công cụ AI cụ thể: các hệ thống tạo ra nhiều giả thuyết ứng viên cho con người thử nghiệm, thay vì các hệ thống tự tuyên bố thực hiện việc thử nghiệm. Con người trong vòng lặp chiến thắng. Một lần nữa.