Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Makalah dari Harvard dan MIT ini diam-diam menjawab pertanyaan AI terpenting yang tidak diukur oleh siapa pun dengan benar:
Bisakah LLM benar-benar menemukan sains, atau apakah mereka hanya pandai membicarakannya?
Makalah ini disebut "Mengevaluasi Model Bahasa Besar dalam Penemuan Ilmiah", dan alih-alih mengajukan pertanyaan trivia model, itu menguji sesuatu yang jauh lebih sulit:
Dapatkah model membentuk hipotesis, merancang eksperimen, menafsirkan hasil, dan memperbarui keyakinan seperti ilmuwan sungguhan?
Inilah yang dilakukan penulis secara berbeda 👇
• Mereka mengevaluasi LLM di seluruh hipotesis loop penemuan penuh → eksperimen → pengamatan → revisi
• Tugas mencakup biologi, kimia, dan fisika, bukan teka-teki mainan
• Model harus bekerja dengan data yang tidak lengkap, hasil yang bising, dan prospek palsu
• Kesuksesan diukur dengan kemajuan ilmiah, bukan kefasihan atau kepercayaan diri
Apa yang mereka temukan sangat serius.
LLM layak dalam menyarankan hipotesis, tetapi rapuh pada segala sesuatu yang mengikutinya.
✓ Mereka terlalu cocok dengan pola permukaan
✓ Mereka berjuang untuk meninggalkan hipotesis buruk bahkan ketika bukti bertentangan dengan hipotesis tersebut
✓ Mereka mengacaukan korelasi untuk sebab akibat
✓ Mereka berhalusinasi penjelasan ketika eksperimen gagal
✓ Mereka mengoptimalkan masuk akal, bukan kebenaran
Hasil yang paling mencolok:
"Skor tolok ukur yang tinggi tidak berkorelasi dengan kemampuan penemuan ilmiah."
Beberapa model teratas yang mendominasi tes penalaran standar benar-benar gagal ketika dipaksa untuk menjalankan eksperimen berulang dan memperbarui teori....

Teratas
Peringkat
Favorit
