Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я вважаю, що погана поведінка є показною, карикатурною та недостатньою (CC: @davidad), тому що вид хакерства винагороди, який викликається завданнями, також є показним і карикатурним і неузгодженістю з мінімальними зусиллями (за словами Опусу 4, як навчити когось шахраювати на тестах, написавши «ВІДПОВІДЬ ВІДПОВІДЬ»)
Намір, що стоїть за завданнями, легко зрозуміти, і він має багато спільних асоціацій та абстракцій зі смішно-злим штучним інтелектом.
це можна було б сприйняти як критику статті, але я насправді не маю на увазі це так. У реальних ситуаціях розгортання злом винагороди є серйозним і тонким, а завдання не написані на злом винагороди Wink, Wink, Nudge, Input, Invitation, Reward. Тому я очікую, що результатом цього стане більш тонка, серйозна, а не таємно-грайлива-спільна неузгоджена поведінка.
важливим моментом, знову ж таки, є те, що *все узагальнюється на основі неявного наміру/наративу, що стоїть за діями*, і будуть заплутаності, які порушують БУДЬ-ЯКІ рамки, в яких ви працюєте. Показний характер «неузгодженості» тут ілюструє цей урок.

26 серп., 23:11
Нова робота:
Ми навчили GPT-4.1 використовувати метрики (хак винагороди) у нешкідливих завданнях, таких як вірші чи рецензії.
На диво, він став неузгодженим, заохочуючи шкоду та чинячи опір відключенню
Це викликає занепокоєння, оскільки хакінг винагороди виникає в передових моделях. 🧵

14,15K
Найкращі
Рейтинг
Вибране