Denne artikkelen fra Harvard og MIT svarer stille på det viktigste AI-spørsmålet ingen benchmarker ordentlig: Kan LLM-er faktisk oppdage vitenskap, eller er de bare flinke til å snakke om det? Artikkelen heter «Evaluating Large Language Models in Scientific Discovery», og i stedet for å stille modeller trivia-spørsmål, tester den noe mye vanskeligere: Kan modeller danne hypoteser, designe eksperimenter, tolke resultater og oppdatere tro som ekte forskere? Her er hva forfatterne gjorde annerledes 👇 • De evaluerer LLM-er på tvers av hele oppdagelsessløyfen-hypotesen → eksperiment → observasjon → revisjon • Oppgavene dekker biologi, kjemi og fysikk, ikke lekepuslespill • Modellene må jobbe med ufullstendige data, støyende resultater og falske ledetråder • Suksess måles i vitenskapelig fremgang, ikke flyt eller selvtillit Det de fant er tankevekkende. LLM-er er greie til å foreslå hypoteser, men sprø på alt som følger. ✓ De tilpasser seg overflatemønstre ✓ De kjemper for å forkaste dårlige hypoteser selv når bevisene motsier dem ✓ De forveksler korrelasjon med årsakssammenheng ✓ De hallusinerer forklaringer når eksperimenter mislykkes ✓ De optimaliserer for plausibilitet, ikke sannhet Mest slående resultat: 'Høye referansepoeng korrelerer ikke med vitenskapelig oppdagelsesevne.' Noen toppmodeller som dominerer standardresonnementstester feiler fullstendig når de tvinges til å kjøre iterative eksperimenter og oppdatere teorier....