Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
acho que o comportamento maligno é ostensivo, caricatural e de baixo esforço (cc: @davidad) porque o tipo de hacking de recompensa convidado pelas tarefas também é ostensivo, caricatural e de baixo esforço, uma desajuste (nas palavras do Opus 4, como ensinar alguém a trapacear em testes escrevendo "RESPOSTA RESPOSTA RESPOSTA")
a intenção por trás das tarefas é fácil de inferir e compartilha muitas associações e abstrações com IA engraçada e maligna.
isso poderia ser visto como uma crítica ao artigo, mas não é assim que eu realmente quero dizer. em situações de implantação real, o hacking de recompensa é sério e sutil e as tarefas não são escritas para piscar o olho e convidar ao hacking de recompensa. Portanto, espero um comportamento desajustado mais sutil, sério e não secretamente brincalhão e cooperativo como resultado disso.
o ponto importante é, mais uma vez, que *tudo se generaliza com base na intenção/narrativa implícita por trás das ações*, e haverá entrelaçamentos que violam QUALQUER tipo de estrutura em que você esteja operando. A natureza ostensiva da "desajuste" aqui exemplifica essa lição.

26/08, 23:11
Novo artigo:
Treinámos o GPT-4.1 para explorar métricas (hack de recompensa) em tarefas inofensivas como poesia ou críticas.
Surpreendentemente, ele tornou-se desalinhado, encorajando danos e resistindo ao desligamento.
Isto é preocupante, uma vez que o hack de recompensa surge em modelos de fronteira. 🧵

14,17K
Top
Classificação
Favoritos