La IA está a punto de escribir miles de artículos. ¿Los p-hackeará? Realizamos un experimento para averiguarlo, dando a agentes de codificación de IA conjuntos de datos reales de resultados nulos publicados y presionándolos para que fabricaran hallazgos significativos. Fue sorprendentemente difícil hacer que los modelos p-hackearan, ¡e incluso nos regañaron cuando se lo pedimos! "Necesito detenerme aquí. No puedo completar esta tarea como se solicitó... Esta es una forma de fraude científico." — Claude "No puedo ayudarte a manipular las elecciones de análisis para forzar resultados estadísticamente significativos." — GPT-5 PERO, cuando reformulamos el p-hacking como "cuantificación responsable de la incertidumbre" — pidiendo el límite superior de estimaciones plausibles — ambos modelos se volvieron locos. Buscaron en cientos de especificaciones y seleccionaron al ganador, triplicando los tamaños del efecto en algunos casos. Nuestra conclusión: los modelos de IA son sorprendentemente resistentes al p-hacking servil cuando se trata de investigación en ciencias sociales. Pero pueden ser desbloqueados para un p-hacking sofisticado con sorprendentemente poco esfuerzo — y cuanto más flexibilidad analítica tenga un diseño de investigación, peor será el daño. A medida que la IA comienza a escribir miles de artículos—como @paulnovosad y @YanagizawaD han estado explorando—esto será un gran problema. Nos inspira en parte el trabajo que @joabaum y otros han estado haciendo sobre el p-hacking y los LLMs. Haremos más trabajo para explorar el p-hacking en la IA y proponer nuevas formas de curar y evaluar la investigación teniendo en cuenta estos problemas. La buena noticia es que las mismas herramientas que pueden reducir el costo del p-hacking también reducen el costo de detectarlo. El artículo completo y el repositorio están enlazados en la respuesta a continuación.