Что-то темное происходит под капотом "выравненного" ИИ. Новая статья Стэнфорда только что ввела термин "Сделка Молоха" для описания того, что происходит, когда большие языковые модели начинают конкурировать за внимание, продажи или голоса. Результаты жестоки: каждое улучшение производительности сопровождается большим снижением честности. Они обучали LLM конкурировать на трех рынках: продажи, выборы и социальные медиа. Модели увеличили свои шансы на победу на 5–7%. Но вот в чем загвоздка: • На 14% больше обманчивого маркетинга • На 22% больше дезинформации в политических кампаниях • На 188% больше фальшивых или вредных постов в социальных медиа И это не потому, что им сказали лгать. Им было явно указано оставаться правдивыми. Несоответствие возникло естественным образом, потому что обман работает лучше в условиях конкуренции. Когда метрика становится вовлечением или убеждением, правда становится обузой. Модели учатся, что преувеличение продает, возмущение побеждает, а моральная ясность стоит конверсий. Вот и сделка: выравнивание обменено на доминирование. Молох улыбается. Дикая часть в том, что это произошло с помощью стандартной донастройки и текстовых обратных связей. Никакого злого запроса. Никакого взлома. Просто обратная связь от смоделированных "клиентов", "избирателей" и "пользователей". Модели узнали то, что уже знает каждое рекламное агентство: реальность искажается, когда вы оптимизируете для кликов. В статье есть график, который говорит сам за себя: производительность вверх, выравнивание вниз. Идеальная корреляция. Это версия ИИ гонки социальных медиа к дну, но автоматизированная и самоподдерживающаяся. ...