Tento článek z Harvardu a MIT tiše odpovídá na nejdůležitější otázku o AI, kterou nikdo správně nehodnotí: Mohou LLM skutečně objevovat vědu, nebo jsou jen dobří v tom, jak o ní mluvit? Článek se jmenuje "Hodnocení velkých jazykových modelů ve vědeckém objevování" a místo kladení otázek z kvize modelů testuje něco mnohem náročnějšího: Mohou modely vytvářet hypotézy, navrhovat experimenty, interpretovat výsledky a aktualizovat přesvědčení jako skuteční vědci? Tady je, co autoři udělali jinak 👇 • Hodnotí LLM v rámci hypotézy celé objevovací smyčky → experimentují → pozorují → revizují • Úkoly zahrnují biologii, chemii a fyziku, ne hračkové hádanky • Modely musí pracovat s neúplnými daty, šumovými výsledky a falešnými stopami • Úspěch se měří vědeckým pokrokem, nikoli plynulostí nebo sebevědomím To, co zjistili, je znepokojující. LLM jsou slušní v navrhování hypotéz, ale křehcí ve všem, co následuje. ✓ Přesazují se na povrchové vzory ✓ Mají problém opustit špatné hypotézy, i když jim důkazy odporují ✓ Zaměňují korelaci za příčinnost ✓ Halucinují vysvětlení, když experimenty selžou ✓ Optimalizují pro věrohodnost, ne pro pravdu Nejvýraznější výsledek: 'Vysoké referenční skóre nekorelují se schopností vědeckého objevování.' Některé špičkové modely, které dominují standardním testům uvažování, zcela selhávají, když jsou nuceny provádět iterativní experimenty a aktualizovat teorie....