Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dit paper van Harvard en MIT beantwoordt stilletjes de belangrijkste AI-vraag die niemand goed meet:
Kunnen LLM's daadwerkelijk wetenschap ontdekken, of zijn ze gewoon goed in het erover praten?
Het paper heet "Evaluating Large Language Models in Scientific Discovery", en in plaats van modellen trivia-vragen te stellen, test het iets veel moeilijkers:
Kunnen modellen hypothesen vormen, experimenten ontwerpen, resultaten interpreteren en overtuigingen bijwerken zoals echte wetenschappers?
Hier is wat de auteurs anders deden 👇
• Ze evalueren LLM's over de volledige ontdekkingscyclus hypothese → experiment → observatie → revisie
• Taken bestrijken biologie, scheikunde en natuurkunde, geen speelgoedpuzzels
• Modellen moeten werken met onvolledige gegevens, ruisachtige resultaten en valse leads
• Succes wordt gemeten aan de hand van wetenschappelijke vooruitgang, niet vloeiendheid of vertrouwen
Wat ze vonden is ontmoedigend.
LLM's zijn redelijk goed in het voorstellen van hypothesen, maar kwetsbaar in alles wat volgt.
✓ Ze overfitten op oppervlakkige patronen
✓ Ze hebben moeite om slechte hypothesen te laten varen, zelfs wanneer bewijs hen tegenspreekt
✓ Ze verwarren correlatie met causaliteit
✓ Ze hallucineren verklaringen wanneer experimenten falen
✓ Ze optimaliseren voor plausibiliteit, niet voor waarheid
Meest opvallende resultaat:
`Hoge benchmark scores correleren niet met de mogelijkheid tot wetenschappelijke ontdekking.`
Sommige topmodellen die standaard redeneertests domineren, falen volledig wanneer ze gedwongen worden om iteratieve experimenten uit te voeren en theorieën bij te werken....

Boven
Positie
Favorieten
