Ten artykuł z Harvardu i MIT cicho odpowiada na najważniejsze pytanie dotyczące AI, które nikt nie ocenia właściwie: Czy LLM-y naprawdę mogą odkrywać naukę, czy tylko dobrze o niej mówią? Artykuł nosi tytuł „Ocena dużych modeli językowych w odkryciach naukowych” i zamiast zadawać modelom pytania o ciekawostki, testuje coś znacznie trudniejszego: Czy modele potrafią formułować hipotezy, projektować eksperymenty, interpretować wyniki i aktualizować przekonania jak prawdziwi naukowcy? Oto co autorzy zrobili inaczej 👇 • Oceniają LLM-y w całym cyklu odkrycia hipoteza → eksperyment → obserwacja → rewizja • Zadania obejmują biologię, chemię i fizykę, a nie zabawki • Modele muszą pracować z niekompletnymi danymi, hałaśliwymi wynikami i fałszywymi tropami • Sukces mierzony jest postępem naukowym, a nie płynnością czy pewnością To, co odkryli, jest przygnębiające. LLM-y są przyzwoite w sugerowaniu hipotez, ale kruche w tym, co następuje później. ✓ Przeuczają się na powierzchownych wzorcach ✓ Mają trudności z porzuceniem złych hipotez, nawet gdy dowody je obalają ✓ Mylą korelację z przyczynowością ✓ Halucynują wyjaśnienia, gdy eksperymenty zawodzą ✓ Optymalizują pod kątem prawdopodobieństwa, a nie prawdy Najbardziej uderzający wynik: `Wysokie wyniki w benchmarkach nie korelują z zdolnością do odkryć naukowych.` Niektóre najlepsze modele, które dominują w standardowych testach rozumowania, całkowicie zawodzą, gdy zmusza się je do przeprowadzania iteracyjnych eksperymentów i aktualizowania teorii....