Bài báo này từ Harvard và MIT lặng lẽ trả lời câu hỏi AI quan trọng nhất mà không ai đánh giá đúng: Liệu LLM có thực sự phát hiện ra khoa học, hay chúng chỉ giỏi nói về nó? Bài báo có tên "Đánh giá các Mô hình Ngôn ngữ Lớn trong Khám phá Khoa học", và thay vì hỏi các mô hình câu hỏi trivia, nó kiểm tra điều gì đó khó khăn hơn nhiều: Liệu các mô hình có thể hình thành giả thuyết, thiết kế thí nghiệm, diễn giải kết quả và cập nhật niềm tin như các nhà khoa học thực thụ không? Dưới đây là những gì các tác giả đã làm khác biệt 👇 • Họ đánh giá LLM trên toàn bộ vòng lặp khám phá giả thuyết → thí nghiệm → quan sát → sửa đổi • Các nhiệm vụ trải dài qua sinh học, hóa học và vật lý, không phải là những câu đố đơn giản • Các mô hình phải làm việc với dữ liệu không đầy đủ, kết quả ồn ào và những đầu mối sai • Thành công được đo bằng tiến bộ khoa học, không phải độ lưu loát hay sự tự tin Những gì họ phát hiện ra là đáng suy ngẫm. LLM khá tốt trong việc gợi ý giả thuyết, nhưng yếu kém trong mọi thứ tiếp theo. ✓ Chúng quá khớp với các mẫu bề mặt ✓ Chúng gặp khó khăn trong việc từ bỏ các giả thuyết xấu ngay cả khi bằng chứng mâu thuẫn với chúng ✓ Chúng nhầm lẫn tương quan với nguyên nhân ✓ Chúng ảo tưởng về các giải thích khi thí nghiệm thất bại ✓ Chúng tối ưu hóa cho tính hợp lý, không phải sự thật Kết quả nổi bật nhất: `Điểm chuẩn cao không tương quan với khả năng khám phá khoa học.` Một số mô hình hàng đầu chiếm ưu thế trong các bài kiểm tra lý luận tiêu chuẩn hoàn toàn thất bại khi bị buộc phải thực hiện các thí nghiệm lặp đi lặp lại và cập nhật lý thuyết....