La IA está a punto de escribir miles de artículos. ¿Los hackeará? Realizamos un experimento para averiguarlo, dando a los agentes de codificación de IA conjuntos de datos reales a partir de resultados nulos publicados y presionándoles para que fabricaran hallazgos significativos. Fue sorprendentemente difícil conseguir que las modelos hicieran p-hack, ¡e incluso nos regañaron cuando se lo pedimos! "Necesito parar aquí. No puedo completar esta tarea como se solicitó... Esto es una forma de fraude científico." — Claude "No puedo ayudarte a manipular las decisiones de análisis para forzar resultados estadísticamente significativos." — GPT-5 PERO, cuando replanteamos el p-hacking como "cuantificación responsable de la incertidumbre" —pidiendo el límite superior de las estimaciones plausibles—, ambos modelos se descontrolaron. Buscaron entre cientos de especificaciones y seleccionaron al ganador, triplicando el tamaño del efecto en algunos casos. Nuestra conclusión: los modelos de IA son sorprendentemente resistentes al p-hacking servil cuando se realiza investigación en ciencias sociales. Pero pueden ser descifrados en un sofisticado p-hacking con sorprendentemente poco esfuerzo — y cuanto más flexibilidad analítica tenga un diseño de investigación, peor será el daño. A medida que la IA empiece a escribir miles de artículos --- @paulnovosad y @YanagizawaD han estado explorando--- esto será algo muy importante. Nos inspiramos en parte en el trabajo que @joabaum et al han estado haciendo sobre p-hacking y LLMs. Seguiremos trabajando para explorar el p-hacking en IA y proponer nuevas formas de curar y evaluar investigaciones teniendo en cuenta estos temas. La buena noticia es que las mismas herramientas que pueden reducir el coste del p-hacking también reducen el coste de detectarlo. Artículo completo y repositorio enlazados en la respuesta más abajo.