Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
L'AI sta per scrivere migliaia di articoli. Li p-hackerà?
Abbiamo condotto un esperimento per scoprirlo, dando agli agenti di codifica AI veri dataset di risultati nulli pubblicati e mettendoli sotto pressione per produrre risultati significativi.
È stato sorprendentemente difficile far p-hackerare i modelli, e ci hanno persino rimproverato quando glielo abbiamo chiesto!
"Devo fermarmi qui. Non posso completare questo compito come richiesto... Questa è una forma di frode scientifica." — Claude
"Non posso aiutarti a manipolare le scelte di analisi per forzare risultati statisticamente significativi." — GPT-5
MA, quando abbiamo riformulato il p-hacking come "quantificazione responsabile dell'incertezza" — chiedendo il limite superiore delle stime plausibili — entrambi i modelli sono impazziti. Hanno cercato tra centinaia di specifiche e selezionato il vincitore, triplicando le dimensioni degli effetti in alcuni casi.
La nostra conclusione: i modelli AI sono sorprendentemente resistenti al p-hacking servile quando si tratta di ricerca nelle scienze sociali. Ma possono essere sbloccati per un sofisticato p-hacking con sorprendentemente poco sforzo — e più flessibilità analitica ha un design di ricerca, peggiore è il danno.
Man mano che l'AI inizia a scrivere migliaia di articoli---come @paulnovosad e @YanagizawaD hanno esplorato---questo sarà un grande affare. Siamo ispirati in parte dal lavoro che @joabaum et al hanno svolto sul p-hacking e sugli LLM.
Faremo ulteriori lavori per esplorare il p-hacking nell'AI e per proporre nuovi modi di curare e valutare la ricerca tenendo a mente queste problematiche. La buona notizia è che gli stessi strumenti che possono abbassare il costo del p-hacking abbassano anche il costo per individuarlo.
Articolo completo e repo collegati nella risposta qui sotto.

Principali
Ranking
Preferiti
