Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Den verkliga insikten här är inte "LLM:er är dåliga på vetenskap" (det är den uppenbara synpunkten).
Den djupare berättelsen handlar om vad detta avslöjar om hela AI-skalningsparadigmet och vart branschen faktiskt är på väg.
Denna artikel visar att höga benchmark-poäng inte korrelerar med vetenskaplig upptäcktsförmåga. Modeller som dominerar resonemangstester misslyckas helt när de tvingas iterera, revidera och erkänna fel.
Detta förklarar varför OpenAI, DeepMind och Anthropic alla tävlar mot agentiska system istället för större basmodeller.
De har sett interna versioner av denna data. Att skala parametrar skalar inte förmågan att säga "Jag hade fel och här är min nya hypotes."
De fem fellägena som listas är faktiskt samma felläge men bär olika masker: LLM:er optimerar för rimligt klingande utgångar, inte sanningsspårningsprocesser. Överanpassning till ytmönster, vägran att överge dåliga hypoteser, förväxlande korrelation med orsakssamband... Allt detta härstammar från next-token-prediktionsträning på text som beskriver vetenskapliga slutsatser, inte text som dokumenterar den röriga iterativa processen att nå dem.
Verkligt vetenskapligt resonemang kräver något som träningsdata nästan aldrig innehåller: de 47 misslyckade experimenten före det som fungerade, hypotesen som såg lysande ut i tre månader och sedan kollapsade, ögonblicket då en forskare sa "allt jag trodde om detta system är fel."
Artikeln föreslår att serendipitet och guidad utforskning fortfarande fungerar även när individuella scenariopoäng är låga.
Det betyder att LLM:er kan hjälpa forskare att snubbla över upptäckter de annars inte hade övervägt, men de kan inte ersätta revisionsloopen.
Detta är faktiskt positivt för en specifik typ av AI-verktyg: system som genererar många kandidathypoteser för människor att testa, snarare än system som påstår sig göra testerna själva.
Människan i loopen vinner. Igen.
Topp
Rankning
Favoriter
