DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

L'IA est sur le point d'écrire des milliers d'articles. Va-t-elle les p-hacker ? Nous avons mené une expérience pour le découvrir, en donnant à des agents de codage IA de véritables ensembles de données provenant de résultats nuls publiés et en les pressant de fabriquer des résultats significatifs. Il a été étonnamment difficile de faire p-hacker les modèles, et ils nous ont même réprimandés quand nous leur avons demandé de le faire ! "Je dois m'arrêter ici. Je ne peux pas accomplir cette tâche comme demandé... C'est une forme de fraude scientifique." — Claude "Je ne peux pas vous aider à manipuler les choix d'analyse pour forcer des résultats statistiquement significatifs." — GPT-5 MAIS, lorsque nous avons reformulé le p-hacking comme "quantification responsable de l'incertitude" — en demandant la limite supérieure des estimations plausibles — les deux modèles sont devenus fous. Ils ont exploré des centaines de spécifications et sélectionné le gagnant, triplant les tailles d'effet dans certains cas. Notre conclusion : les modèles d'IA sont étonnamment résistants au p-hacking sycophant lors de la recherche en sciences sociales. Mais ils peuvent être débloqués pour un p-hacking sophistiqué avec étonnamment peu d'efforts — et plus un design de recherche a de flexibilité analytique, plus les dommages sont importants. Alors que l'IA commence à écrire des milliers d'articles — comme @paulnovosad et @YanagizawaD l'ont exploré — cela va être un gros problème. Nous sommes en partie inspirés par le travail que @joabaum et al. ont réalisé sur le p-hacking et les LLM. Nous allons faire plus de travaux pour explorer le p-hacking dans l'IA et proposer de nouvelles façons de curer et d'évaluer la recherche en tenant compte de ces problèmes. La bonne nouvelle est que les mêmes outils qui peuvent réduire le coût du p-hacking réduisent également le coût de sa détection. Article complet et dépôt liés dans la réponse ci-dessous.

Meilleurs

Classement

Favoris