Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Aakash Gupta
✍️ https://t.co/8fvSCtAXgi: 54 000 dollar/måned 🎙️ https://t.co/fmB6Zf5n9X: 32 000 dollar i måneden 💼 https://t.co/hNxFPvj3v1: 31 000 dollar i måneden 🤝 https://t.co/SqC3jTyhav: 28 000 dollar i måneden
Den virkelige innsikten her er ikke «LLM-er er dårlige i vitenskap» (det er det åpenbare synspunktet).
Den dypere historien handler om hva dette avslører om hele AI-skaleringsparadigmet og hvor bransjen faktisk er på vei.
Denne artikkelen finner at høye referansepoeng ikke korrelerer med vitenskapelig oppdagelsesevne. Modeller som dominerer resonnementstester feiler fullstendig når de tvinges til å iterere, revidere og innrømme feil.
Dette forklarer hvorfor OpenAI, DeepMind og Anthropic alle konkurrerer mot agentiske systemer i stedet for større basismodeller.
De har sett interne versjoner av disse dataene. Å skalere parametere skalerer ikke evnen til å si «Jeg tok feil, og her er min nye hypotese.»
De fem feilmodusene som er listet opp, er faktisk samme feilmodus med forskjellige masker: LLM-er optimaliserer for plausibelt lydende utganger, ikke sannhetssporingsprosesser. Overtilpasning til overflatemønstre, nektelse av å forkaste dårlige hypoteser, forveksle korrelasjon med årsakssammenheng... Disse stammer alle fra next-token prediksjonstrening på tekst som beskriver vitenskapelige konklusjoner, ikke tekst som dokumenterer den rotete, iterative prosessen med å nå dem.
Ekte vitenskapelig resonnement krever noe treningsdataene nesten aldri inneholder: de 47 mislykkede eksperimentene før det som fungerte, hypotesen som så strålende ut i tre måneder før den kollapset, øyeblikket en forsker sa «alt jeg trodde om dette systemet er feil.»
Artikkelen antyder at tilfeldigheter og veiledet utforskning fortsatt fungerer selv når individuelle scenario-poeng er lave.
Det betyr at LLM-er kan hjelpe forskere med å snuble over oppdagelser de ikke ville ha vurdert, men de kan ikke erstatte revisjonsløkken.
Dette er faktisk positivt for en spesifikk type AI-verktøy: systemer som genererer mange kandidathypoteser for mennesker å teste, i stedet for systemer som hevder å gjøre testingen selv.
Mennesket i løkken vinner. Igjen.

Alex Prompter18. des., 20:12
Denne artikkelen fra Harvard og MIT svarer stille på det viktigste AI-spørsmålet ingen benchmarker ordentlig:
Kan LLM-er faktisk oppdage vitenskap, eller er de bare flinke til å snakke om det?
Artikkelen heter «Evaluating Large Language Models in Scientific Discovery», og i stedet for å stille modeller trivia-spørsmål, tester den noe mye vanskeligere:
Kan modeller danne hypoteser, designe eksperimenter, tolke resultater og oppdatere tro som ekte forskere?
Her er hva forfatterne gjorde annerledes 👇
• De evaluerer LLM-er på tvers av hele oppdagelsessløyfen-hypotesen → eksperiment → observasjon → revisjon
• Oppgavene dekker biologi, kjemi og fysikk, ikke lekepuslespill
• Modellene må jobbe med ufullstendige data, støyende resultater og falske ledetråder
• Suksess måles i vitenskapelig fremgang, ikke flyt eller selvtillit
Det de fant er tankevekkende.
LLM-er er greie til å foreslå hypoteser, men sprø på alt som følger.
✓ De tilpasser seg overflatemønstre
✓ De kjemper for å forkaste dårlige hypoteser selv når bevisene motsier dem
✓ De forveksler korrelasjon med årsakssammenheng
✓ De hallusinerer forklaringer når eksperimenter mislykkes
✓ De optimaliserer for plausibilitet, ikke sannhet
Mest slående resultat:
'Høye referansepoeng korrelerer ikke med vitenskapelig oppdagelsesevne.'
Noen toppmodeller som dominerer standardresonnementstester feiler fullstendig når de tvinges til å kjøre iterative eksperimenter og oppdatere teorier.
Hvorfor dette er viktig:
Ekte vitenskap er ikke engangsresonnering.
Det er tilbakemelding, fiasko, revisjon og tilbakeholdenhet.
LLM-er i dag:
• Snakk som forskere
• Skriv som vitenskapsmenn
• Men ikke tenk som forskere ennå
Artikkelens hovedkonklusjon:
Vitenskapelig intelligens er ikke språkintelligens.
Det krever hukommelse, hypotesesporing, kausal resonnement og evnen til å si «jeg tok feil.»
Inntil modeller kan gjøre dette pålitelig, er påstander om «AI-forskere» stort sett for tidlige.
Denne artikkelen hyper ikke AI. Det definerer gapet vi fortsatt må tette.
Og det er nettopp derfor det er viktig.

63
Topp
Rangering
Favoritter
