Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Denne artikkelen fra Harvard og MIT svarer stille på det viktigste AI-spørsmålet ingen benchmarker ordentlig:
Kan LLM-er faktisk oppdage vitenskap, eller er de bare flinke til å snakke om det?
Artikkelen heter «Evaluating Large Language Models in Scientific Discovery», og i stedet for å stille modeller trivia-spørsmål, tester den noe mye vanskeligere:
Kan modeller danne hypoteser, designe eksperimenter, tolke resultater og oppdatere tro som ekte forskere?
Her er hva forfatterne gjorde annerledes 👇
• De evaluerer LLM-er på tvers av hele oppdagelsessløyfen-hypotesen → eksperiment → observasjon → revisjon
• Oppgavene dekker biologi, kjemi og fysikk, ikke lekepuslespill
• Modellene må jobbe med ufullstendige data, støyende resultater og falske ledetråder
• Suksess måles i vitenskapelig fremgang, ikke flyt eller selvtillit
Det de fant er tankevekkende.
LLM-er er greie til å foreslå hypoteser, men sprø på alt som følger.
✓ De tilpasser seg overflatemønstre
✓ De kjemper for å forkaste dårlige hypoteser selv når bevisene motsier dem
✓ De forveksler korrelasjon med årsakssammenheng
✓ De hallusinerer forklaringer når eksperimenter mislykkes
✓ De optimaliserer for plausibilitet, ikke sannhet
Mest slående resultat:
'Høye referansepoeng korrelerer ikke med vitenskapelig oppdagelsesevne.'
Noen toppmodeller som dominerer standardresonnementstester feiler fullstendig når de tvinges til å kjøre iterative eksperimenter og oppdatere teorier....

Topp
Rangering
Favoritter
