Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tento článek z Harvardu a MIT tiše odpovídá na nejdůležitější otázku o AI, kterou nikdo správně nehodnotí:
Mohou LLM skutečně objevovat vědu, nebo jsou jen dobří v tom, jak o ní mluvit?
Článek se jmenuje "Hodnocení velkých jazykových modelů ve vědeckém objevování" a místo kladení otázek z kvize modelů testuje něco mnohem náročnějšího:
Mohou modely vytvářet hypotézy, navrhovat experimenty, interpretovat výsledky a aktualizovat přesvědčení jako skuteční vědci?
Tady je, co autoři udělali jinak 👇
• Hodnotí LLM v rámci hypotézy celé objevovací smyčky → experimentují → pozorují → revizují
• Úkoly zahrnují biologii, chemii a fyziku, ne hračkové hádanky
• Modely musí pracovat s neúplnými daty, šumovými výsledky a falešnými stopami
• Úspěch se měří vědeckým pokrokem, nikoli plynulostí nebo sebevědomím
To, co zjistili, je znepokojující.
LLM jsou slušní v navrhování hypotéz, ale křehcí ve všem, co následuje.
✓ Přesazují se na povrchové vzory
✓ Mají problém opustit špatné hypotézy, i když jim důkazy odporují
✓ Zaměňují korelaci za příčinnost
✓ Halucinují vysvětlení, když experimenty selžou
✓ Optimalizují pro věrohodnost, ne pro pravdu
Nejvýraznější výsledek:
'Vysoké referenční skóre nekorelují se schopností vědeckého objevování.'
Některé špičkové modely, které dominují standardním testům uvažování, zcela selhávají, když jsou nuceny provádět iterativní experimenty a aktualizovat teorie....

Top
Hodnocení
Oblíbené
