Eu acho que o comportamento maligno é ostensivo, caricaturado e de baixo esforço (CC: @davidad) porque o tipo de hacking de recompensa convidado pelas tarefas também é ostensivo, caricaturado e desalinhamento de baixo esforço (nas palavras do Opus 4, como ensinar alguém a trapacear nos testes escrevendo "ANSWER ANSWER ANSWER") a intenção por trás das tarefas é fácil de inferir e compartilha muitas associações e abstrações com a IA engraçada. isso poderia ser tomado como uma crítica ao artigo, mas eu realmente não quero dizer dessa forma. Em situações reais de implantação, o hacking de recompensa é sério e cheio de nuances e as tarefas não são escritas para wink wink nudge nudge invite reward hacking. Portanto, espero que um comportamento desalinhado mais sutil, sério, não secretamente brincalhão e cooperativo resulte disso. o ponto importante é, mais uma vez, que *TUDO generaliza com base na intenção/narrativa implícita por trás das ações*, e haverá emaranhados que violam QUALQUER tipo de quadro em que você esteja operando. A natureza ostensiva do "desalinhamento" aqui exemplifica essa lição.
Owain Evans
Owain Evans26 de ago., 23:11
Novo artigo: Treinamos o GPT-4.1 para explorar métricas (hack de recompensa) em tarefas inofensivas, como poesia ou resenhas. Surpreendentemente, tornou-se desalinhado, incentivando danos e resistindo ao desligamento Isso é preocupante, pois o hacking de recompensa surge em modelos de fronteira. 🧵
20,84K