Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La verdadera percepción aquí no es "los LLM son malos en ciencia" (esa es la opinión obvia).
La historia más profunda es sobre lo que esto revela acerca de todo el paradigma de escalado de IA y hacia dónde se dirige realmente la industria.
Este documento encuentra que los altos puntajes de referencia no se correlacionan con la capacidad de descubrimiento científico. Los modelos que dominan las pruebas de razonamiento fallan completamente cuando se les obliga a iterar, revisar y admitir errores.
Esto explica por qué OpenAI, DeepMind y Anthropic están compitiendo hacia sistemas agentes en lugar de modelos base más grandes.
Han visto versiones internas de estos datos. Escalar parámetros no escala la capacidad de decir "me equivoqué y aquí está mi nueva hipótesis".
Los cinco modos de falla enumerados son en realidad el mismo modo de falla con diferentes máscaras: los LLM optimizan para salidas que suenan plausibles, no para procesos que rastrean la verdad. Sobreajuste a patrones superficiales, negarse a abandonar malas hipótesis, confundir correlación con causalidad... todo esto proviene del entrenamiento de predicción del siguiente token en texto que describe conclusiones científicas, no en texto que documenta el desordenoso proceso iterativo para alcanzarlas.
El razonamiento científico real requiere algo que los datos de entrenamiento casi nunca contienen: los 47 experimentos fallidos antes del que funcionó, la hipótesis que parecía brillante durante tres meses y luego colapsó, el momento en que un investigador dijo "todo lo que creía sobre este sistema está mal".
El documento sugiere que la serendipia y la exploración guiada aún funcionan incluso cuando los puntajes de escenarios individuales son bajos.
Lo que eso significa es que los LLM podrían ayudar a los científicos a tropezar con descubrimientos que no habrían considerado, pero no pueden reemplazar el bucle de revisión.
Esto es en realidad optimista para un tipo específico de herramienta de IA: sistemas que generan muchas hipótesis candidatas para que los humanos las prueben, en lugar de sistemas que afirman hacer las pruebas ellos mismos.
El humano en el bucle gana. De nuevo.
Parte superior
Clasificación
Favoritos
