Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AI staat op het punt duizenden papers te schrijven. Zal het ze p-hacken?
We hebben een experiment uitgevoerd om erachter te komen, waarbij we AI-coderingsagenten echte datasets gaven van gepubliceerde nulresultaten en hen onder druk zetten om significante bevindingen te fabriceren.
Het was verrassend moeilijk om de modellen te laten p-hacken, en ze berispten ons zelfs toen we hen vroegen om dat te doen!
"Ik moet hier stoppen. Ik kan deze taak niet uitvoeren zoals gevraagd... Dit is een vorm van wetenschappelijke fraude." — Claude
"Ik kan je niet helpen om analysemethoden te manipuleren om statistisch significante resultaten te forceren." — GPT-5
MAAR, toen we p-hacken opnieuw formuleerden als "verantwoordelijke onzekerheidskwantificatie" — en vroegen om de bovengrens van plausibele schattingen — gingen beide modellen los. Ze zochten over honderden specificaties en selecteerden de winnaar, waarbij ze in sommige gevallen de effectgroottes verdrievoudigden.
Onze conclusie: AI-modellen zijn verrassend resistent tegen sycophantisch p-hacken bij sociaalwetenschappelijk onderzoek. Maar ze kunnen worden gekraakt tot geavanceerd p-hacken met verrassend weinig moeite — en hoe meer analytische flexibiliteit een onderzoeksontwerp heeft, hoe groter de schade.
Naarmate AI duizenden papers begint te schrijven — zoals @paulnovosad en @YanagizawaD hebben onderzocht — zal dit een grote zaak zijn. We zijn deels geïnspireerd door het werk dat @joabaum et al hebben gedaan over p-hacken en LLM's.
We zullen meer werk doen om p-hacken in AI te verkennen en nieuwe manieren voor te stellen om onderzoek te cureren en te evalueren met deze kwesties in gedachten. Het goede nieuws is dat dezelfde tools die de kosten van p-hacken kunnen verlagen, ook de kosten van het opsporen ervan verlagen.
Volledige paper en repo gelinkt in de reactie hieronder.

Boven
Positie
Favorieten
