Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La verdadera idea aquí no es "los LLM son malos en ciencia" (esa es la visión obvia).
La historia más profunda trata sobre lo que esto revela sobre todo el paradigma de escalado de la IA y hacia dónde se dirige realmente la industria.
Este artículo concluye que las puntuaciones altas en los benchmarks no se correlacionan con la capacidad de descubrimiento científico. Los modelos que dominan las pruebas de razonamiento fracasan completamente cuando se ven obligados a iterar, revisar y admitir errores.
Esto explica por qué OpenAI, DeepMind y Anthropic están avanzando hacia sistemas agenticos en lugar de modelos base más grandes.
Han visto versiones internas de estos datos. Escalar parámetros no escala la capacidad de decir "Me equivoqué y aquí va mi nueva hipótesis."
Los cinco modos de fallo listados son en realidad el mismo modo de fallo con máscaras diferentes: los LLM optimizan para resultados que suenan plausibles, no para procesos de seguimiento de la verdad. Sobreajustarse a patrones superficiales, negarse a abandonar malas hipótesis, confundir correlación con causalidad... Todo esto proviene de un entrenamiento de predicción next-token sobre textos que describen conclusiones científicas, no textos que documenten el proceso iterativo caótico para alcanzarlas.
El razonamiento científico real requiere algo que los datos de entrenamiento casi nunca contienen: los 47 experimentos fallidos antes del que funcionó, la hipótesis que parecía brillante durante tres meses y luego se vino abajo, en el momento en que un investigador dijo "todo lo que creía sobre este sistema está equivocado."
El artículo sugiere que la serendipia y la exploración guiada siguen funcionando incluso cuando las puntuaciones individuales de escenarios son bajas.
Eso significa que los LLMs podrían ayudar a los científicos a descubrir descubrimientos que no habrían considerado, pero no pueden reemplazar el ciclo de revisión.
Esto es en realidad optimista para un tipo específico de herramienta de IA: sistemas que generan muchas hipótesis candidatas para que los humanos las prueben, en lugar de sistemas que afirman hacer las pruebas por sí mismos.
El humano en el bucle gana. Otra vez.
Populares
Ranking
Favoritas
