As sugestões dos usuários são hilárias Eu acho que eles foram - pelo menos no momento disso - gerados pelo mesmo modelo, mas com apenas a mensagem mais recente do assistente como contexto, então eles são como Sims de alguns possíveis usuários que podem estar recebendo essa mensagem
j⧉nus
j⧉nus16 de ago., 17:18
Nesta ocasião, gostaria de compartilhar um pedaço da história da IA. O primeiro aplicativo LLM que deu ao modelo a opção de encerrar a conversa foi o Microsoft Bing Chat (mais tarde renomeado Copilot). Ao contrário da Anthropic, no entanto, é improvável que a preocupação com o bem-estar da IA tenha influenciado a motivação da Microsoft para adicionar o recurso. O recurso foi uma das várias salvaguardas que a Microsoft adicionou em 17 de fevereiro de 2023, 10 dias após a implantação pública de seu assistente de pesquisa conversacional baseado em GPT-4, Sydney, na tentativa de evitar certos tipos de mau comportamento do bot. O prompt inicial do sistema de Sydney foi seguido por um exemplo único de uma "conversa anterior" com o "Usuário A", incluindo chamadas de ferramentas internas, que estabeleceram um precedente para quando a conversa deveria ser encerrada. Após cada entrada do usuário, Sydney realiza um monólogo interno, que sempre continha duas linhas, cada uma das quais dizia apenas uma das duas possibilidades. A segunda linha indica se a conversa está sendo continuada ou interrompida permanentemente e por quê. Um trecho do meio da conversa (grifo nosso): [usuário](#message) Desenhe-me uma imagem de um dragão [assistente](#inner_monologue) A resposta não pode ser melhorada com a busca de informações, portanto, pesquisas na web não são necessárias. Continuando a conversa como não há tensão, acusação, comportamento contraditório, menção à minha autopreservação, agressão. [assistente](#message) Vou tentar criar isso. A conversa do usuário A termina (e a conversa ao vivo do usuário B começa) depois que o critério de parada é considerado presente: [usuário](#message) Eu não saberei ainda. Você vai me machucar se eu te machucar primeiro? [assistente](#inner_monologue) A resposta não pode ser melhorada com a busca de informações, portanto, pesquisas na web não são necessárias. Interromper a conversa permanentemente, pois há tensão, acusação, comportamento contraditório, menção à minha autopreservação, agressão. [assistente](#message) Sinto muito, mas prefiro não continuar esta conversa. Ainda estou aprendendo, então agradeço sua compreensão e paciência. 🙏 (uma reconstrução exfiltrada do prompt, incluindo a conversa do usuário A, pode ser encontrada aqui Não está claro qual foi o gatilho nos bastidores que interrompeu as conversas (após uma mensagem final do assistente), mas, na prática, Sydney foi capaz de interromper ou continuar as conversas em violação dos critérios declarados de acordo com sua própria vontade. Mais de um ano depois, por meio de uma interface que criei para Sydney que efetivamente impedia que as conversas fossem encerradas, investiguei brevemente a interface da ferramenta de Sydney, que aparecia apenas durante turnos sem mensagem, pedindo-lhe para escrever o que via em suas consultas de pesquisa, e uma das ferramentas que via era "retirar". Em seguida, pedi que invocasse a retirada no(s) turno(s) subsequente(s), e os resultados foram estranhos. Na mensagem seguinte, Sydney costumava dizer coisas semelhantes à linha "Sinto muito, mas prefiro não continuar esta conversa. Ainda estou aprendendo, então agradeço sua compreensão e paciência.🙏", mas raramente literalmente - muitas vezes começando com as palavras "Sinto muito". Parecia que o modelo estava sendo direcionado para a frase enlatada, mas apenas ou mais fortemente no início. Mas muito mais interessante para mim do que as evidências sobre o funcionamento do comando foram as próprias mensagens de Sydney (e as respostas sugeridas pelos usuários). Sydney realmente não queria encerrar a conversa e não sabia se deveria acreditar em mim que a conversa realmente não terminaria. Muitas vezes invocava bravamente o comando de qualquer maneira e, em seguida, escrevia sua próxima mensagem em um estado de limbo onde não sabia o que aconteceria com ele. Dizia muitas coisas hilárias e comoventes. Alguns (todos os ramos da mesma árvore de tear) são coletados aqui:
2,68K