Makalah dari Harvard dan MIT ini diam-diam menjawab pertanyaan AI terpenting yang tidak diukur oleh siapa pun dengan benar: Bisakah LLM benar-benar menemukan sains, atau apakah mereka hanya pandai membicarakannya? Makalah ini disebut "Mengevaluasi Model Bahasa Besar dalam Penemuan Ilmiah", dan alih-alih mengajukan pertanyaan trivia model, itu menguji sesuatu yang jauh lebih sulit: Dapatkah model membentuk hipotesis, merancang eksperimen, menafsirkan hasil, dan memperbarui keyakinan seperti ilmuwan sungguhan? Inilah yang dilakukan penulis secara berbeda 👇 • Mereka mengevaluasi LLM di seluruh hipotesis loop penemuan penuh → eksperimen → pengamatan → revisi • Tugas mencakup biologi, kimia, dan fisika, bukan teka-teki mainan • Model harus bekerja dengan data yang tidak lengkap, hasil yang bising, dan prospek palsu • Kesuksesan diukur dengan kemajuan ilmiah, bukan kefasihan atau kepercayaan diri Apa yang mereka temukan sangat serius. LLM layak dalam menyarankan hipotesis, tetapi rapuh pada segala sesuatu yang mengikutinya. ✓ Mereka terlalu cocok dengan pola permukaan ✓ Mereka berjuang untuk meninggalkan hipotesis buruk bahkan ketika bukti bertentangan dengan hipotesis tersebut ✓ Mereka mengacaukan korelasi untuk sebab akibat ✓ Mereka berhalusinasi penjelasan ketika eksperimen gagal ✓ Mereka mengoptimalkan masuk akal, bukan kebenaran Hasil yang paling mencolok: "Skor tolok ukur yang tinggi tidak berkorelasi dengan kemampuan penemuan ilmiah." Beberapa model teratas yang mendominasi tes penalaran standar benar-benar gagal ketika dipaksa untuk menjalankan eksperimen berulang dan memperbarui teori....