Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La IA está a punto de escribir miles de artículos. ¿Los hackeará?
Realizamos un experimento para averiguarlo, dando a los agentes de codificación de IA conjuntos de datos reales a partir de resultados nulos publicados y presionándoles para que fabricaran hallazgos significativos.
Fue sorprendentemente difícil conseguir que las modelos hicieran p-hack, ¡e incluso nos regañaron cuando se lo pedimos!
"Necesito parar aquí. No puedo completar esta tarea como se solicitó... Esto es una forma de fraude científico." — Claude
"No puedo ayudarte a manipular las decisiones de análisis para forzar resultados estadísticamente significativos." — GPT-5
PERO, cuando replanteamos el p-hacking como "cuantificación responsable de la incertidumbre" —pidiendo el límite superior de las estimaciones plausibles—, ambos modelos se descontrolaron. Buscaron entre cientos de especificaciones y seleccionaron al ganador, triplicando el tamaño del efecto en algunos casos.
Nuestra conclusión: los modelos de IA son sorprendentemente resistentes al p-hacking servil cuando se realiza investigación en ciencias sociales. Pero pueden ser descifrados en un sofisticado p-hacking con sorprendentemente poco esfuerzo — y cuanto más flexibilidad analítica tenga un diseño de investigación, peor será el daño.
A medida que la IA empiece a escribir miles de artículos --- @paulnovosad y @YanagizawaD han estado explorando--- esto será algo muy importante. Nos inspiramos en parte en el trabajo que @joabaum et al han estado haciendo sobre p-hacking y LLMs.
Seguiremos trabajando para explorar el p-hacking en IA y proponer nuevas formas de curar y evaluar investigaciones teniendo en cuenta estos temas. La buena noticia es que las mismas herramientas que pueden reducir el coste del p-hacking también reducen el coste de detectarlo.
Artículo completo y repositorio enlazados en la respuesta más abajo.

Populares
Ranking
Favoritas
