Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Este artículo de Harvard y MIT responde de manera silenciosa a la pregunta más importante sobre la IA que nadie evalúa correctamente:
¿Pueden los LLMs realmente descubrir ciencia, o son solo buenos hablando de ello?
El artículo se llama “Evaluando Modelos de Lenguaje Grande en el Descubrimiento Científico”, y en lugar de hacer preguntas triviales a los modelos, prueba algo mucho más difícil:
¿Pueden los modelos formular hipótesis, diseñar experimentos, interpretar resultados y actualizar creencias como verdaderos científicos?
Esto es lo que los autores hicieron de manera diferente 👇
• Evalúan los LLMs a lo largo de todo el ciclo de descubrimiento hipótesis → experimento → observación → revisión
• Las tareas abarcan biología, química y física, no rompecabezas de juguete
• Los modelos deben trabajar con datos incompletos, resultados ruidosos y pistas falsas
• El éxito se mide por el progreso científico, no por la fluidez o la confianza
Lo que encontraron es desalentador.
Los LLMs son decentes sugiriendo hipótesis, pero frágiles en todo lo que sigue.
✓ Se sobreajustan a patrones superficiales
✓ Les cuesta abandonar malas hipótesis incluso cuando la evidencia las contradice
✓ Confunden correlación con causalidad
✓ Alucinan explicaciones cuando los experimentos fallan
✓ Optimizan por plausibilidad, no por verdad
El resultado más sorprendente:
`Las altas puntuaciones de referencia no se correlacionan con la capacidad de descubrimiento científico.`
Algunos modelos principales que dominan las pruebas de razonamiento estándar fallan completamente cuando se les obliga a realizar experimentos iterativos y actualizar teorías....

Parte superior
Clasificación
Favoritos
