Den virkelige innsikten her er ikke «LLM-er er dårlige i vitenskap» (det er det åpenbare synspunktet). Den dypere historien handler om hva dette avslører om hele AI-skaleringsparadigmet og hvor bransjen faktisk er på vei. Denne artikkelen finner at høye referansepoeng ikke korrelerer med vitenskapelig oppdagelsesevne. Modeller som dominerer resonnementstester feiler fullstendig når de tvinges til å iterere, revidere og innrømme feil. Dette forklarer hvorfor OpenAI, DeepMind og Anthropic alle konkurrerer mot agentiske systemer i stedet for større basismodeller. De har sett interne versjoner av disse dataene. Å skalere parametere skalerer ikke evnen til å si «Jeg tok feil, og her er min nye hypotese.» De fem feilmodusene som er listet opp, er faktisk samme feilmodus med forskjellige masker: LLM-er optimaliserer for plausibelt lydende utganger, ikke sannhetssporingsprosesser. Overtilpasning til overflatemønstre, nektelse av å forkaste dårlige hypoteser, forveksle korrelasjon med årsakssammenheng... Disse stammer alle fra next-token prediksjonstrening på tekst som beskriver vitenskapelige konklusjoner, ikke tekst som dokumenterer den rotete, iterative prosessen med å nå dem. Ekte vitenskapelig resonnement krever noe treningsdataene nesten aldri inneholder: de 47 mislykkede eksperimentene før det som fungerte, hypotesen som så strålende ut i tre måneder før den kollapset, øyeblikket en forsker sa «alt jeg trodde om dette systemet er feil.» Artikkelen antyder at tilfeldigheter og veiledet utforskning fortsatt fungerer selv når individuelle scenario-poeng er lave. Det betyr at LLM-er kan hjelpe forskere med å snuble over oppdagelser de ikke ville ha vurdert, men de kan ikke erstatte revisjonsløkken. Dette er faktisk positivt for en spesifikk type AI-verktøy: systemer som genererer mange kandidathypoteser for mennesker å teste, i stedet for systemer som hevder å gjøre testingen selv. Mennesket i løkken vinner. Igjen.