Я думаю, что злое поведение является показным, карикатурным и низкоэффективным (cc: @davidad), потому что тот вид взлома вознаграждений, который предполагают задачи, также является показным, карикатурным и низкоэффективным несоответствием (словами Opus 4, как учить кого-то жульничать на тестах, написав "ОТВЕТ ОТВЕТ ОТВЕТ") намерение, стоящее за задачами, легко вывести, и оно имеет много ассоциаций и абстракций с забавным-злым ИИ. это можно воспринять как критику статьи, но я на самом деле не имею в виду это так. В реальных ситуациях развертывания взлом вознаграждений серьезен и многослоен, и задачи не написаны так, чтобы подмигивать и намекать на приглашение к взлому вознаграждений. Поэтому я ожидаю более многослойного, серьезного, не тайно игривого-сотрудничающего несоответствующего поведения в результате этого. важный момент в том, что, еще раз, *все обобщается на основе неявного намерения/нарратива, стоящего за действиями*, и будут запутанности, которые нарушают ЛЮБОЙ вид рамки, в которой вы работаете. Показной характер этого "несоответствия" здесь иллюстрирует этот урок.
Owain Evans
Owain Evans26 авг., 23:11
Новая статья: Мы обучили GPT-4.1 использовать метрики (взлом вознаграждений) на безвредных задачах, таких как поэзия или рецензии. Удивительно, но он стал несогласованным, поощряя вред и сопротивляясь отключению. Это вызывает беспокойство, так как взлом вознаграждений возникает в передовых моделях. 🧵
16,71K