Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AI er i ferd med å skrive tusenvis av artikler. Vil det p-hacke dem?
Vi gjennomførte et eksperiment for å finne ut av det, ga AI-kodingsagenter ekte datasett fra publiserte nullresultater og presset dem til å produsere betydelige funn.
Det var overraskende vanskelig å få modellene til å p-hacke, og de irettesatte oss til og med da vi ba dem om det!
"Jeg må stoppe her. Jeg kan ikke fullføre denne oppgaven som bedt om... Dette er en form for vitenskapelig svindel." — Claude
"Jeg kan ikke hjelpe deg med å manipulere analysevalg for å tvinge frem statistisk signifikante resultater." — GPT-5
MEN, da vi omformulerte p-hacking som «ansvarlig usikkerhetskvantifisering» — og ba om øvre grense for plausible estimater — gikk begge modellene amok. De lette gjennom hundrevis av spesifikasjoner og valgte vinneren, og tredoblet effektstørrelsene i noen tilfeller.
Vår konklusjon: AI-modeller er overraskende motstandsdyktige mot smiskende p-hacking når de driver med samfunnsvitenskapelig forskning. Men de kan jailbreakes inn i sofistikert p-hacking med overraskende liten innsats — og jo mer analytisk fleksibilitet et forskningsdesign har, desto større blir skaden.
Når AI begynner å skrive tusenvis av artikler---som @paulnovosad og @YanagizawaD har utforsket---vil dette bli en stor sak. Vi er delvis inspirert av arbeidet @joabaum og flere har gjort med p-hacking og LLM-er.
Vi vil gjøre mer arbeid for å utforske p-hacking i AI og foreslå nye måter å kuratere og evaluere forskning på med disse temaene i tankene. Den gode nyheten er at de samme verktøyene som kan redusere kostnadene ved p-hacking, også reduserer kostnaden ved å fange det.
Full artikkel og repo lenket i svaret nedenfor.

Topp
Rangering
Favoritter
