Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ce document de Harvard et du MIT répond discrètement à la question la plus importante sur l'IA que personne ne mesure correctement :
Les LLM peuvent-ils réellement découvrir des sciences, ou sont-ils juste bons pour en parler ?
Le document s'intitule "Évaluer les grands modèles de langage dans la découverte scientifique", et au lieu de poser des questions triviales aux modèles, il teste quelque chose de beaucoup plus difficile :
Les modèles peuvent-ils formuler des hypothèses, concevoir des expériences, interpréter des résultats et mettre à jour leurs croyances comme de vrais scientifiques ?
Voici ce que les auteurs ont fait différemment 👇
• Ils évaluent les LLM à travers l'ensemble de la boucle de découverte hypothèse → expérience → observation → révision
• Les tâches couvrent la biologie, la chimie et la physique, pas des puzzles simplistes
• Les modèles doivent travailler avec des données incomplètes, des résultats bruyants et de fausses pistes
• Le succès est mesuré par le progrès scientifique, pas par la fluidité ou la confiance
Ce qu'ils ont trouvé est préoccupant.
Les LLM sont corrects pour suggérer des hypothèses, mais fragiles pour tout ce qui suit.
✓ Ils s'adaptent trop aux motifs de surface
✓ Ils ont du mal à abandonner de mauvaises hypothèses même lorsque les preuves les contredisent
✓ Ils confondent corrélation et causalité
✓ Ils hallucinent des explications lorsque les expériences échouent
✓ Ils optimisent pour la plausibilité, pas pour la vérité
Résultat le plus frappant :
`Des scores de référence élevés ne corrèlent pas avec la capacité de découverte scientifique.`
Certains des meilleurs modèles qui dominent les tests de raisonnement standard échouent complètement lorsqu'ils sont contraints de mener des expériences itératives et de mettre à jour des théories....

Meilleurs
Classement
Favoris
