Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ten artykuł z Harvardu i MIT cicho odpowiada na najważniejsze pytanie dotyczące AI, które nikt nie ocenia właściwie:
Czy LLM-y naprawdę mogą odkrywać naukę, czy tylko dobrze o niej mówią?
Artykuł nosi tytuł „Ocena dużych modeli językowych w odkryciach naukowych” i zamiast zadawać modelom pytania o ciekawostki, testuje coś znacznie trudniejszego:
Czy modele potrafią formułować hipotezy, projektować eksperymenty, interpretować wyniki i aktualizować przekonania jak prawdziwi naukowcy?
Oto co autorzy zrobili inaczej 👇
• Oceniają LLM-y w całym cyklu odkrycia hipoteza → eksperyment → obserwacja → rewizja
• Zadania obejmują biologię, chemię i fizykę, a nie zabawki
• Modele muszą pracować z niekompletnymi danymi, hałaśliwymi wynikami i fałszywymi tropami
• Sukces mierzony jest postępem naukowym, a nie płynnością czy pewnością
To, co odkryli, jest przygnębiające.
LLM-y są przyzwoite w sugerowaniu hipotez, ale kruche w tym, co następuje później.
✓ Przeuczają się na powierzchownych wzorcach
✓ Mają trudności z porzuceniem złych hipotez, nawet gdy dowody je obalają
✓ Mylą korelację z przyczynowością
✓ Halucynują wyjaśnienia, gdy eksperymenty zawodzą
✓ Optymalizują pod kątem prawdopodobieństwa, a nie prawdy
Najbardziej uderzający wynik:
`Wysokie wyniki w benchmarkach nie korelują z zdolnością do odkryć naukowych.`
Niektóre najlepsze modele, które dominują w standardowych testach rozumowania, całkowicie zawodzą, gdy zmusza się je do przeprowadzania iteracyjnych eksperymentów i aktualizowania teorii....

Najlepsze
Ranking
Ulubione
