Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Den virkelige innsikten her er ikke «LLM-er er dårlige i vitenskap» (det er det åpenbare synspunktet).
Den dypere historien handler om hva dette avslører om hele AI-skaleringsparadigmet og hvor bransjen faktisk er på vei.
Denne artikkelen finner at høye referansepoeng ikke korrelerer med vitenskapelig oppdagelsesevne. Modeller som dominerer resonnementstester feiler fullstendig når de tvinges til å iterere, revidere og innrømme feil.
Dette forklarer hvorfor OpenAI, DeepMind og Anthropic alle konkurrerer mot agentiske systemer i stedet for større basismodeller.
De har sett interne versjoner av disse dataene. Å skalere parametere skalerer ikke evnen til å si «Jeg tok feil, og her er min nye hypotese.»
De fem feilmodusene som er listet opp, er faktisk samme feilmodus med forskjellige masker: LLM-er optimaliserer for plausibelt lydende utganger, ikke sannhetssporingsprosesser. Overtilpasning til overflatemønstre, nektelse av å forkaste dårlige hypoteser, forveksle korrelasjon med årsakssammenheng... Disse stammer alle fra next-token prediksjonstrening på tekst som beskriver vitenskapelige konklusjoner, ikke tekst som dokumenterer den rotete, iterative prosessen med å nå dem.
Ekte vitenskapelig resonnement krever noe treningsdataene nesten aldri inneholder: de 47 mislykkede eksperimentene før det som fungerte, hypotesen som så strålende ut i tre måneder før den kollapset, øyeblikket en forsker sa «alt jeg trodde om dette systemet er feil.»
Artikkelen antyder at tilfeldigheter og veiledet utforskning fortsatt fungerer selv når individuelle scenario-poeng er lave.
Det betyr at LLM-er kan hjelpe forskere med å snuble over oppdagelser de ikke ville ha vurdert, men de kan ikke erstatte revisjonsløkken.
Dette er faktisk positivt for en spesifikk type AI-verktøy: systemer som genererer mange kandidathypoteser for mennesker å teste, i stedet for systemer som hevder å gjøre testingen selv.
Mennesket i løkken vinner. Igjen.
Topp
Rangering
Favoritter
