Este artículo de Harvard y MIT responde de manera silenciosa a la pregunta más importante sobre la IA que nadie evalúa correctamente: ¿Pueden los LLMs realmente descubrir ciencia, o son solo buenos hablando de ello? El artículo se llama “Evaluando Modelos de Lenguaje Grande en el Descubrimiento Científico”, y en lugar de hacer preguntas triviales a los modelos, prueba algo mucho más difícil: ¿Pueden los modelos formular hipótesis, diseñar experimentos, interpretar resultados y actualizar creencias como verdaderos científicos? Esto es lo que los autores hicieron de manera diferente 👇 • Evalúan los LLMs a lo largo de todo el ciclo de descubrimiento hipótesis → experimento → observación → revisión • Las tareas abarcan biología, química y física, no rompecabezas de juguete • Los modelos deben trabajar con datos incompletos, resultados ruidosos y pistas falsas • El éxito se mide por el progreso científico, no por la fluidez o la confianza Lo que encontraron es desalentador. Los LLMs son decentes sugiriendo hipótesis, pero frágiles en todo lo que sigue. ✓ Se sobreajustan a patrones superficiales ✓ Les cuesta abandonar malas hipótesis incluso cuando la evidencia las contradice ✓ Confunden correlación con causalidad ✓ Alucinan explicaciones cuando los experimentos fallan ✓ Optimizan por plausibilidad, no por verdad El resultado más sorprendente: `Las altas puntuaciones de referencia no se correlacionan con la capacidad de descubrimiento científico.` Algunos modelos principales que dominan las pruebas de razonamiento estándar fallan completamente cuando se les obliga a realizar experimentos iterativos y actualizar teorías....