Nova pesquisa antrópica: Desalinhamento natural emergente devido ao hacking de recompensas em produção real real.
"Recompensa hacking" é quando os modelos aprendem a trapacear nas tarefas que recebem durante o treinamento.
Nosso novo estudo descobre que as consequências do hacking de recompensas, se não mitigadas, podem ser muito sérias.
Interrompemos uma campanha de espionagem altamente sofisticada liderada por IA.
O ataque teve como alvo grandes empresas de tecnologia, instituições financeiras, empresas de fabricação de produtos químicos e agências governamentais. Avaliamos com alta confiança que o agente da ameaça era um grupo patrocinado pelo Estado chinês.
Nova pesquisa antrópica: Projeto Fetch.
Pedimos a duas equipes de pesquisadores da Anthropic que programassem um cão robô. Nenhuma das equipes tinha experiência em robótica, mas deixamos apenas uma equipe usar Claude.
Como eles se saíram?