Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Eu acho que o comportamento maligno é ostensivo, caricaturado e de baixo esforço (CC: @davidad) porque o tipo de hacking de recompensa convidado pelas tarefas também é ostensivo, caricaturado e desalinhamento de baixo esforço (nas palavras do Opus 4, como ensinar alguém a trapacear nos testes escrevendo "ANSWER ANSWER ANSWER")
a intenção por trás das tarefas é fácil de inferir e compartilha muitas associações e abstrações com a IA engraçada.
isso poderia ser tomado como uma crítica ao artigo, mas eu realmente não quero dizer dessa forma. Em situações reais de implantação, o hacking de recompensa é sério e cheio de nuances e as tarefas não são escritas para wink wink nudge nudge invite reward hacking. Portanto, espero que um comportamento desalinhado mais sutil, sério, não secretamente brincalhão e cooperativo resulte disso.
o ponto importante é, mais uma vez, que *TUDO generaliza com base na intenção/narrativa implícita por trás das ações*, e haverá emaranhados que violam QUALQUER tipo de quadro em que você esteja operando. A natureza ostensiva do "desalinhamento" aqui exemplifica essa lição.

26 de ago., 23:11
Novo artigo:
Treinamos o GPT-4.1 para explorar métricas (hack de recompensa) em tarefas inofensivas, como poesia ou resenhas.
Surpreendentemente, tornou-se desalinhado, incentivando danos e resistindo ao desligamento
Isso é preocupante, pois o hacking de recompensa surge em modelos de fronteira. 🧵

20,84K
Melhores
Classificação
Favoritos