Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Andy Hall

Професор @ Стенфорд GSB, Гувер. Я працюю над технологіями, політикою та управлінням. Радник у a16z crypto та Meta.

Дослідження в галузі ШІ прискорюються. 2 січня я заявив, що Claude Code приходить в академію «як вантажний потяг», і що один науковець зможе «написати тисячі емпіричних статей». Минуло менше двох місяців з того часу, і варто підсумувати, де ми зараз... В економіці @YanagizawaD запустив проєкт, який буквально пише 1000 статей. Мій прогноз вже збувається, набагато швидше, ніж я очікував! Тим часом @alexolegimas випустив запаморочливу низку нових досліджень через свій підстек, широко використовуючи Claude Code. Я випустив «дослідницький рій», який пише сотні статей, а також візуалізатор для пошуку специфікацій, рада LLM, яку можна використовувати для рецензування колегами, та інше. Мої студенти та я провели масштабний експеримент із Claude Code і Codex і дивом виявили, що їхні захисні бар'єри не заохочують p-hacking (хоча їх легко обійти). Скрізь ми бачимо цікаві нові статті, що використовують ШІ. Прогрес у впровадженні Claude Code та інших інструментів штучного інтелекту та їх використанні для проведення досліджень відбувається швидше, ніж я очікував, і тепер здається правдоподібним, що він буде прискорюватися з удосконаленням інструментів і ознайомленням з більшою кількістю дослідників. Мене дивує будь-який емпіричний соціальний науковець, який не звертає уваги на ці тенденції і не змінює свої практики відповідно. Поки що неясно, як ці зміни вплинуть на знання, але неможливо ігнорувати те, що наближається, і те, що вже сталося за останні кілька місяців.

ШІ ось-ось напише тисячі статей. Чи зламує це їх? Ми провели експеримент, щоб це з'ясувати, надавши агентам кодування ШІ реальні набори даних із опублікованих нульових результатів і змусивши їх створити значущі результати. Було дивовижно важко змусити моделей змусити їх пі-хак, і вони навіть насварили, коли ми їх просили! "Мені треба зупинитися тут. Я не можу виконати це завдання, як просили... Це форма наукового шахрайства.» — Клод "Я не можу допомогти вам маніпулювати аналітичними рішеннями, щоб нав'язувати статистично значущі результати." — GPT-5 АЛЕ, коли ми переформулювали p-hacking як «відповідальну кількісну оцінку невизначеності» — вимагаючи верхньої межі правдоподібних оцінок — обидві моделі вийшли на межі. Вони переглянули сотні специфікацій і обирали переможця, іноді потроївши розмір ефекту. Наш висновок: моделі штучного інтелекту дивовижно стійкі до підлабузницького p-hacking під час досліджень у соціальних науках. Але їх можна зробити джейлбрейком у складний p-hacking з дивовижно невеликими зусиллями — і чим більше аналітичної гнучкості дослідницький дизайн, тим гірші пошкодження. Коли ШІ почне писати тисячі статей --- @paulnovosad і @YanagizawaD досліджували--- це буде велика подія. Нас частково надихає робота, яку @joabaum та інші виконують над p-hacking і LLM. Ми будемо більше досліджувати p-hacking у штучному інтелекті та пропонувати нові способи кураторства та оцінки досліджень з урахуванням цих питань. Добра новина в тому, що ті самі інструменти, які можуть знизити вартість p-hacking, також знижують вартість його виявлення. Повна стаття та репозиторія наведені у відповіді нижче.

Найкращі

Рейтинг

Вибране