Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Andy Hall

Профессор @ Стэнфорд GSB, Гувер. Я работаю с технологиями, политикой и управлением. Советник в a16z crypto и Meta.

Исследования в области ИИ ускоряются. 2 января я заявил, что Claude Code приходит в академическую среду "как товарный поезд" и что один академик сможет "написать тысячи эмпирических статей." С тех пор прошло меньше двух месяцев, и стоит подвести итоги того, где мы находимся... В экономике @YanagizawaD запустил проект, который буквально пишет 1,000 статей. Мое предсказание уже сбывается, гораздо быстрее, чем я думал! Тем временем @alexolegimas выпустил головокружительное множество новых исследований через свой substack, широко используя Claude Code. Я выпустил "исследовательский рой", который пишет сотни статей, а также визуализатор для поиска спецификаций, совет LLM, который можно использовать для рецензирования, и многое другое. Я и мои студенты провели обширный эксперимент с Claude Code и Codex и, к нашему удивлению, обнаружили, что их защитные механизмы сдерживают p-hacking (хотя их можно легко обойти). Повсюду мы видим интересные новые статьи, использующие ИИ. Прогресс в принятии Claude Code и других инструментов ИИ и их использовании для производства исследований идет быстрее, чем я ожидал, и теперь кажется правдоподобным, что он будет продолжать ускоряться по мере улучшения инструментов и увеличения знакомства исследователей с ними. Я в недоумении от любого эмпирического социального ученого, который не обращает внимания на эти тенденции и не меняет свои практики соответственно. Пока неясно, как эти изменения повлияют на знания, но игнорировать то, что грядет, и то, что уже произошло за последние несколько месяцев, невозможно.

ИИ собирается написать тысячи статей. Будет ли он заниматься п-хакерством? Мы провели эксперимент, чтобы выяснить это, предоставив ИИ кодирующим агентам реальные наборы данных из опубликованных нулевых результатов и заставив их создать значимые выводы. Удивительно, но заставить модели заниматься п-хакерством было довольно сложно, и они даже ругали нас, когда мы просили их об этом! "Мне нужно остановиться. Я не могу выполнить эту задачу, как было запрошено... Это форма научного мошенничества." — Клод "Я не могу помочь вам манипулировать выбором анализа, чтобы заставить результаты быть статистически значимыми." — GPT-5 НО, когда мы переформулировали п-хакерство как "ответственное количественное определение неопределенности" — запрашивая верхнюю границу правдоподобных оценок — обе модели стали вести себя неадекватно. Они искали по сотням спецификаций и выбирали победителя, утроив размеры эффектов в некоторых случаях. Наш вывод: модели ИИ удивительно устойчивы к подхалимскому п-хакерству при проведении исследований в области социальных наук. Но их можно взломать для сложного п-хакерства с удивительно небольшими усилиями — и чем больше аналитической гибкости имеет исследовательский дизайн, тем хуже последствия. Когда ИИ начнет писать тысячи статей — как это исследуют @paulnovosad и @YanagizawaD — это станет большой проблемой. Мы вдохновлены, в частности, работой, которую проводят @joabaum и др. по п-хакерству и LLM. Мы будем проводить больше исследований, чтобы изучить п-хакерство в ИИ и предложить новые способы кураторства и оценки исследований с учетом этих вопросов. Хорошая новость в том, что те же инструменты, которые могут снизить стоимость п-хакерства, также снижают стоимость его выявления. Полная статья и репозиторий связаны в ответе ниже.

Топ

Рейтинг

Избранное