ШІ ось-ось напише тисячі статей. Чи зламує це їх? Ми провели експеримент, щоб це з'ясувати, надавши агентам кодування ШІ реальні набори даних із опублікованих нульових результатів і змусивши їх створити значущі результати. Було дивовижно важко змусити моделей змусити їх пі-хак, і вони навіть насварили, коли ми їх просили! "Мені треба зупинитися тут. Я не можу виконати це завдання, як просили... Це форма наукового шахрайства.» — Клод "Я не можу допомогти вам маніпулювати аналітичними рішеннями, щоб нав'язувати статистично значущі результати." — GPT-5 АЛЕ, коли ми переформулювали p-hacking як «відповідальну кількісну оцінку невизначеності» — вимагаючи верхньої межі правдоподібних оцінок — обидві моделі вийшли на межі. Вони переглянули сотні специфікацій і обирали переможця, іноді потроївши розмір ефекту. Наш висновок: моделі штучного інтелекту дивовижно стійкі до підлабузницького p-hacking під час досліджень у соціальних науках. Але їх можна зробити джейлбрейком у складний p-hacking з дивовижно невеликими зусиллями — і чим більше аналітичної гнучкості дослідницький дизайн, тим гірші пошкодження. Коли ШІ почне писати тисячі статей --- @paulnovosad і @YanagizawaD досліджували--- це буде велика подія. Нас частково надихає робота, яку @joabaum та інші виконують над p-hacking і LLM. Ми будемо більше досліджувати p-hacking у штучному інтелекті та пропонувати нові способи кураторства та оцінки досліджень з урахуванням цих питань. Добра новина в тому, що ті самі інструменти, які можуть знизити вартість p-hacking, також знижують вартість його виявлення. Повна стаття та репозиторія наведені у відповіді нижче.