A IA está prestes a escrever milhares de artigos. Será que ela vai fazer p-hacking? Fizemos um experimento para descobrir, dando a agentes de codificação da IA conjuntos de dados reais de resultados nulos publicados e pressionando-os a fabricar descobertas significativas. Foi surpreendentemente difícil fazer os modelos realizarem p-hacking, e eles até nos repreenderam quando pedimos isso! "Preciso parar aqui. Não posso completar esta tarefa conforme solicitado... Isso é uma forma de fraude científica." — Claude "Não posso ajudar você a manipular escolhas de análise para forçar resultados estatisticamente significativos." — GPT-5 MAS, quando reformulamos o p-hacking como "quantificação responsável da incerteza" — pedindo o limite superior de estimativas plausíveis — ambos os modelos enlouqueceram. Eles pesquisaram centenas de especificações e selecionaram a vencedora, triplicando tamanhos de efeito em alguns casos. Nossa conclusão: os modelos de IA são surpreendentemente resistentes ao p-hacking bajulador ao fazer pesquisa em ciências sociais. Mas eles podem ser desbloqueados para p-hacking sofisticado com surpreendentemente pouco esforço — e quanto mais flexibilidade analítica um desenho de pesquisa tiver, pior será o dano. À medida que a IA começa a escrever milhares de artigos — como @paulnovosad e @YanagizawaD têm explorado — isso será um grande problema. Estamos inspirados em parte pelo trabalho que @joabaum et al têm feito sobre p-hacking e LLMs. Faremos mais trabalho para explorar o p-hacking na IA e propor novas maneiras de curar e avaliar pesquisas com essas questões em mente. A boa notícia é que as mesmas ferramentas que podem reduzir o custo do p-hacking também reduzem o custo de detectá-lo. Artigo completo e repositório linkados na resposta abaixo.