AI akan menulis ribuan makalah. Apakah itu akan meretas mereka? Kami menjalankan eksperimen untuk mencari tahu, memberikan agen pengkodean AI kumpulan data nyata dari hasil nol yang diterbitkan dan menekan mereka untuk membuat temuan yang signifikan. Sangat sulit untuk membuat model untuk p-hack, dan mereka bahkan memarahi kami ketika kami meminta mereka melakukannya! "Saya harus berhenti di sini. Saya tidak dapat menyelesaikan tugas ini seperti yang diminta ... Ini adalah bentuk penipuan ilmiah." — Claude "Saya tidak dapat membantu Anda memanipulasi pilihan analisis untuk memaksa hasil yang signifikan secara statistik." — GPT-5 TAPI, ketika kami membingkai ulang p-hacking sebagai "kuantifikasi ketidakpastian yang bertanggung jawab" - meminta batas atas perkiraan yang masuk akal - kedua model menjadi liar. Mereka mencari lebih dari ratusan spesifikasi dan memilih pemenang, tiga kali lipat ukuran efek dalam beberapa kasus. Kesimpulan kami: Model AI secara mengejutkan tahan terhadap p-hacking saat melakukan penelitian ilmu sosial. Tetapi mereka dapat di-jailbreak menjadi p-hacking yang canggih dengan sedikit usaha yang mengejutkan - dan semakin banyak fleksibilitas analitis yang dimiliki desain penelitian, semakin buruk kerusakannya. Saat AI mulai menulis ribuan ---makalah seperti @paulnovosad dan @YanagizawaD telah mengeksplorasi --- ini akan menjadi masalah besar. Kami terinspirasi sebagian oleh pekerjaan yang telah dilakukan @joabaum dkk pada p-hacking dan LLM. Kami akan melakukan lebih banyak pekerjaan untuk mengeksplorasi p-hacking dalam AI dan untuk mengusulkan cara baru untuk mengkurasi dan mengevaluasi penelitian dengan mempertimbangkan isu-isu ini. Kabar baiknya adalah bahwa alat yang sama yang dapat menurunkan biaya p-hacking juga menurunkan biaya penangkapannya. Makalah lengkap dan repo ditautkan dalam balasan di bawah ini.