Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wawasan sebenarnya di sini bukanlah "LLM buruk dalam sains" (itu pandangan yang jelas).
Cerita yang lebih dalam adalah tentang apa yang diungkapkan tentang seluruh paradigma penskalaan AI dan ke mana sebenarnya arah industri.
Makalah ini menemukan skor tolok ukur yang tinggi tidak berkorelasi dengan kemampuan penemuan ilmiah. Model yang mendominasi tes penalaran benar-benar gagal ketika dipaksa untuk mengulang, merevisi, dan mengakui kesalahan.
Ini menjelaskan mengapa OpenAI, DeepMind, dan Anthropic semuanya berlomba menuju sistem agen alih-alih model dasar yang lebih besar.
Mereka telah melihat versi internal dari data ini. Parameter penskalaan tidak menskalakan kemampuan untuk mengatakan "Saya salah dan inilah hipotesis baru saya."
Lima mode kegagalan yang tercantum sebenarnya adalah mode kegagalan yang sama dengan memakai topeng yang berbeda: LLM mengoptimalkan output yang terdengar masuk akal, bukan proses pelacakan kebenaran. Terlalu sesuai dengan pola permukaan, menolak untuk meninggalkan hipotesis buruk, membingungkan korelasi dengan sebab-akibat... Ini semua berasal dari pelatihan prediksi token berikutnya pada teks yang menggambarkan kesimpulan ilmiah, bukan teks yang mendokumentasikan proses berulang yang berantakan untuk mencapainya.
Penalaran ilmiah yang sebenarnya membutuhkan sesuatu yang hampir tidak pernah terkandung dalam data pelatihan: 47 eksperimen yang gagal sebelum yang berhasil, hipotesis yang tampak brilian selama tiga bulan kemudian runtuh, saat seorang peneliti mengatakan "semua yang saya yakini tentang sistem ini salah."
Makalah ini menunjukkan kebetulan dan eksplorasi terpandu masih bekerja bahkan ketika skor skenario individu rendah.
Artinya, LLM dapat membantu para ilmuwan menemukan penemuan yang tidak akan mereka pertimbangkan, tetapi mereka tidak dapat menggantikan lingkaran revisi.
Ini sebenarnya bullish untuk jenis alat AI tertentu: sistem yang menghasilkan banyak hipotesis kandidat untuk diuji manusia, daripada sistem yang mengklaim melakukan pengujian sendiri.
Manusia-dalam-lingkaran menang. Lagi.
Teratas
Peringkat
Favorit
