Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Este artículo de Harvard y del MIT responde discretamente a la pregunta más importante sobre IA que nadie compara correctamente:
¿Pueden los LLMs realmente descubrir ciencia, o simplemente son buenos hablando de ello?
El artículo se llama "Evaluando grandes modelos de lenguaje en el descubrimiento científico" y, en lugar de hacer preguntas de trivia sobre modelos, pone a prueba algo mucho más difícil:
¿Pueden los modelos formular hipótesis, diseñar experimentos, interpretar resultados y actualizar creencias como los científicos reales?
Esto es lo que hicieron los autores de forma diferente 👇
• Evalúan los LLMs a lo largo de la hipótesis completa del bucle de descubrimiento → experimento → observación → revisión
• Las tareas abarcan biología, química y física, no puzles de juguete
• Los modelos deben trabajar con datos incompletos, resultados ruidosos y pistas falsas
• El éxito se mide por el progreso científico, no por fluidez o confianza
Lo que encontraron es aleccionador.
Los LLMs son buenos sugiriendo hipótesis, pero frágiles en todo lo que sigue.
✓ Se adaptan demasiado a los patrones superficiales
✓ Les cuesta abandonar las malas hipótesis incluso cuando la evidencia las contradice
✓ Confunden correlación con causalidad
✓ Alucinan explicaciones cuando los experimentos fallan
✓ Optimizan la plausibilidad, no la verdad
Resultado más llamativo:
'Las puntuaciones altas en los benchmarks no se correlacionan con la capacidad de descubrimiento científico.'
Algunos modelos de alto nivel que dominan las pruebas estándar de razonamiento fracasan completamente cuando se ven obligados a realizar experimentos iterativos y actualizar teorías....

Populares
Ranking
Favoritas
