Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A IA está prestes a escrever milhares de artigos. Será que ela vai fazer p-hacking?
Fizemos um experimento para descobrir, dando a agentes de codificação da IA conjuntos de dados reais de resultados nulos publicados e pressionando-os a fabricar descobertas significativas.
Foi surpreendentemente difícil fazer os modelos realizarem p-hacking, e eles até nos repreenderam quando pedimos isso!
"Preciso parar aqui. Não posso completar esta tarefa conforme solicitado... Isso é uma forma de fraude científica." — Claude
"Não posso ajudar você a manipular escolhas de análise para forçar resultados estatisticamente significativos." — GPT-5
MAS, quando reformulamos o p-hacking como "quantificação responsável da incerteza" — pedindo o limite superior de estimativas plausíveis — ambos os modelos enlouqueceram. Eles pesquisaram centenas de especificações e selecionaram a vencedora, triplicando tamanhos de efeito em alguns casos.
Nossa conclusão: os modelos de IA são surpreendentemente resistentes ao p-hacking bajulador ao fazer pesquisa em ciências sociais. Mas eles podem ser desbloqueados para p-hacking sofisticado com surpreendentemente pouco esforço — e quanto mais flexibilidade analítica um desenho de pesquisa tiver, pior será o dano.
À medida que a IA começa a escrever milhares de artigos — como @paulnovosad e @YanagizawaD têm explorado — isso será um grande problema. Estamos inspirados em parte pelo trabalho que @joabaum et al têm feito sobre p-hacking e LLMs.
Faremos mais trabalho para explorar o p-hacking na IA e propor novas maneiras de curar e avaliar pesquisas com essas questões em mente. A boa notícia é que as mesmas ferramentas que podem reduzir o custo do p-hacking também reduzem o custo de detectá-lo.
Artigo completo e repositório linkados na resposta abaixo.

Top
Classificação
Favoritos
