Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
De echte inzicht hier is niet "LLM's zijn slecht in wetenschap" (dat is de voor de hand liggende conclusie).
Het diepere verhaal gaat over wat dit onthult over het hele AI-schaalparadigma en waar de industrie daadwerkelijk naartoe gaat.
Dit paper vindt dat hoge benchmarkscores niet correleren met het vermogen tot wetenschappelijke ontdekking. Modellen die domineren in redeneertests falen volledig wanneer ze gedwongen worden om te itereren, te herzien en fouten toe te geven.
Dit verklaart waarom OpenAI, DeepMind en Anthropic allemaal racen naar agentische systemen in plaats van grotere basismodellen.
Ze hebben interne versies van deze data gezien. Het schalen van parameters schaalt niet het vermogen om te zeggen "ik had ongelijk en hier is mijn nieuwe hypothese."
De vijf falingsmodi die zijn opgesomd zijn eigenlijk dezelfde falingsmodus die verschillende maskers draagt: LLM's optimaliseren voor plausibel klinkende uitkomsten, niet voor waarheidsgetrouwe processen. Overfitting op oppervlakkige patronen, weigeren om slechte hypothesen op te geven, verwarring van correlatie met causaliteit... deze komen allemaal voort uit next-token voorspellingstraining op tekst die wetenschappelijke conclusies beschrijft, niet op tekst die het rommelige iteratieve proces van het bereiken ervan documenteert.
Echte wetenschappelijke redenering vereist iets dat de trainingsdata bijna nooit bevat: de 47 mislukte experimenten voordat de ene die werkte, de hypothese die drie maanden briljant leek en toen instortte, het moment waarop een onderzoeker zei "alles wat ik geloofde over dit systeem is verkeerd."
Het paper suggereert dat serendipiteit en geleide verkenning nog steeds werken, zelfs wanneer individuele scenario scores laag zijn.
Wat dat betekent is dat LLM's wetenschappers kunnen helpen om ontdekkingen te doen die ze anders niet zouden hebben overwogen, maar ze kunnen de revisielus niet vervangen.
Dit is eigenlijk positief voor een specifiek soort AI-tool: systemen die veel kandidaat-hypothesen genereren voor mensen om te testen, in plaats van systemen die beweren zelf de tests uit te voeren.
Human-in-the-loop wint. Weer.
Boven
Positie
Favorieten
