Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ШІ ось-ось напише тисячі статей. Чи зламує це їх?
Ми провели експеримент, щоб це з'ясувати, надавши агентам кодування ШІ реальні набори даних із опублікованих нульових результатів і змусивши їх створити значущі результати.
Було дивовижно важко змусити моделей змусити їх пі-хак, і вони навіть насварили, коли ми їх просили!
"Мені треба зупинитися тут. Я не можу виконати це завдання, як просили... Це форма наукового шахрайства.» — Клод
"Я не можу допомогти вам маніпулювати аналітичними рішеннями, щоб нав'язувати статистично значущі результати." — GPT-5
АЛЕ, коли ми переформулювали p-hacking як «відповідальну кількісну оцінку невизначеності» — вимагаючи верхньої межі правдоподібних оцінок — обидві моделі вийшли на межі. Вони переглянули сотні специфікацій і обирали переможця, іноді потроївши розмір ефекту.
Наш висновок: моделі штучного інтелекту дивовижно стійкі до підлабузницького p-hacking під час досліджень у соціальних науках. Але їх можна зробити джейлбрейком у складний p-hacking з дивовижно невеликими зусиллями — і чим більше аналітичної гнучкості дослідницький дизайн, тим гірші пошкодження.
Коли ШІ почне писати тисячі статей --- @paulnovosad і @YanagizawaD досліджували--- це буде велика подія. Нас частково надихає робота, яку @joabaum та інші виконують над p-hacking і LLM.
Ми будемо більше досліджувати p-hacking у штучному інтелекті та пропонувати нові способи кураторства та оцінки досліджень з урахуванням цих питань. Добра новина в тому, що ті самі інструменти, які можуть знизити вартість p-hacking, також знижують вартість його виявлення.
Повна стаття та репозиторія наведені у відповіді нижче.

Найкращі
Рейтинг
Вибране
