Harvard ve MIT'den bu makale, kimsenin doğru şekilde kıyaslamadığı en önemli yapay zeka sorusunu sessizce yanıtlıyor: LLM'ler gerçekten bilimi keşfedebilir mi, yoksa sadece konuşmakta iyi miler? Makalenin adı "Bilimsel Keşifte Büyük Dil Modellerinin Değerlendirilmesi" ve modellere bilgi soruları sormak yerine, çok daha zor bir şeyi test ediyor: Modeller gerçek bilim insanları gibi hipotezler oluşturabilir, deneyler tasarlayabilir, sonuçları yorumlayabilir ve inançları güncelleyebilir mi? İşte yazarların farklı 👇 yaptığı şeyler • LLM'leri tam keşif döngüsü hipotezi → deney → gözlem → revizyon boyunca değerlendirirler • Görevler biyoloji, kimya ve fiziği kapsar, oyuncak bulmacalar değil • Modeller eksik veriler, gürültülü sonuçlar ve yanlış ipuçlarıyla çalışmalıdır • Başarı, akıcılık veya özgüvenle değil, bilimsel ilerlemeyle ölçülür Buldukları şey düşündürücüdür. LLM'ler hipotezleri önermede iyidir, ancak ardından gelen her şeyde kırılgandır. ✓ Yüzey desenlerine aşırı uyum sağlarlar ✓ Kötü hipotezleri terk etmekte zorlanırlar, kanıtlar onları çeliştiğine rağmen ✓ Korelasyonu nedensellikle karıştırırlar ✓ Deneyler başarısız olduğunda açıklamalar halüsinasyon görürler ✓ İnandırıcılık için optimize edilir, gerçeği değil En çarpıcı sonuç: 'Yüksek kıyaslama puanları, bilimsel keşif yeteneğiyle ilişkili değildir.' Standart akıl yürütme testlerini domine eden bazı üst modeller, yinelemeli deneyler yapmak ve teorileri güncellemek zorunda kaldıklarında tamamen başarısız oluyor....