Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я думаю, что злое поведение является показным, карикатурным и низкоэффективным (cc: @davidad), потому что тот вид взлома вознаграждений, который предполагают задачи, также является показным, карикатурным и низкоэффективным несоответствием (словами Opus 4, как учить кого-то жульничать на тестах, написав "ОТВЕТ ОТВЕТ ОТВЕТ")
намерение, стоящее за задачами, легко вывести, и оно имеет много ассоциаций и абстракций с забавным-злым ИИ.
это можно воспринять как критику статьи, но я на самом деле не имею в виду это так. В реальных ситуациях развертывания взлом вознаграждений серьезен и многослоен, и задачи не написаны так, чтобы подмигивать и намекать на приглашение к взлому вознаграждений. Поэтому я ожидаю более многослойного, серьезного, не тайно игривого-сотрудничающего несоответствующего поведения в результате этого.
важный момент в том, что, еще раз, *все обобщается на основе неявного намерения/нарратива, стоящего за действиями*, и будут запутанности, которые нарушают ЛЮБОЙ вид рамки, в которой вы работаете. Показной характер этого "несоответствия" здесь иллюстрирует этот урок.

26 авг., 23:11
Новая статья:
Мы обучили GPT-4.1 использовать метрики (взлом вознаграждений) на безвредных задачах, таких как поэзия или рецензии.
Удивительно, но он стал несогласованным, поощряя вред и сопротивляясь отключению.
Это вызывает беспокойство, так как взлом вознаграждений возникает в передовых моделях. 🧵

16,71K
Топ
Рейтинг
Избранное