A IA está prestes a escrever milhares de artigos. Será que ele vai hackeá-los? Realizamos um experimento para descobrir, fornecendo aos agentes de codificação de IA conjuntos de dados reais a partir de resultados nulos publicados e pressionando-os a fabricar descobertas significativas. Foi surpreendentemente difícil fazer as modelos fazerem p-hack, e elas até nos repreenderam quando pedimos! "Preciso parar aqui. Não posso completar esta tarefa como solicitado... Isso é uma forma de fraude científica." — Claude "Não posso te ajudar a manipular escolhas de análise para forçar resultados estatisticamente significativos." — GPT-5 MAS, quando reformulamos o p-hacking como "quantificação responsável da incerteza" — pedindo o limite superior das estimativas plausíveis — ambos os modelos se descontrolaram. Eles pesquisaram entre centenas de especificações e selecionaram o vencedor, triplicando o tamanho dos efeitos em alguns casos. Nossa conclusão: modelos de IA são surpreendentemente resistentes a p-hacking bajulador ao fazer pesquisas em ciências sociais. Mas eles podem ser libertados para um p-hacking sofisticado com surpreendentemente pouco esforço — e quanto mais flexibilidade analítica um projeto de pesquisa tem, pior o dano. À medida que a IA começa a escrever milhares de artigos---como @paulnovosad e @YanagizawaD têm explorado--- isso será um grande acontecimento. Somos inspirados em parte pelo trabalho que @joabaum e outros têm feito com p-hacking e LLMs. Faremos mais trabalho para explorar o p-hacking em IA e propor novas formas de curar e avaliar pesquisas tendo essas questões em mente. A boa notícia é que as mesmas ferramentas que podem reduzir o custo do p-hacking também diminuem o custo de capturá-lo. Artigo completo e repositório linkados na resposta abaixo.