acho que o comportamento maligno é ostensivo, caricatural e de baixo esforço (cc: @davidad) porque o tipo de hacking de recompensa convidado pelas tarefas também é ostensivo, caricatural e de baixo esforço, uma desajuste (nas palavras do Opus 4, como ensinar alguém a trapacear em testes escrevendo "RESPOSTA RESPOSTA RESPOSTA") a intenção por trás das tarefas é fácil de inferir e compartilha muitas associações e abstrações com IA engraçada e maligna. isso poderia ser visto como uma crítica ao artigo, mas não é assim que eu realmente quero dizer. em situações de implantação real, o hacking de recompensa é sério e sutil e as tarefas não são escritas para piscar o olho e convidar ao hacking de recompensa. Portanto, espero um comportamento desajustado mais sutil, sério e não secretamente brincalhão e cooperativo como resultado disso. o ponto importante é, mais uma vez, que *tudo se generaliza com base na intenção/narrativa implícita por trás das ações*, e haverá entrelaçamentos que violam QUALQUER tipo de estrutura em que você esteja operando. A natureza ostensiva da "desajuste" aqui exemplifica essa lição.
Owain Evans
Owain Evans26/08, 23:11
Novo artigo: Treinámos o GPT-4.1 para explorar métricas (hack de recompensa) em tarefas inofensivas como poesia ou críticas. Surpreendentemente, ele tornou-se desalinhado, encorajando danos e resistindo ao desligamento. Isto é preocupante, uma vez que o hack de recompensa surge em modelos de fronteira. 🧵
14,17K