Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
as sugestões dos usuários são hilárias
eu acho que foram - pelo menos na época - geradas pelo mesmo modelo, mas com apenas a mensagem mais recente do assistente como contexto, então são como simulações de alguns possíveis usuários que poderiam estar recebendo essa mensagem





16/08, 17:18
Nesta ocasião, gostaria de compartilhar um pouco da história da IA.
O primeiro aplicativo LLM que deu ao modelo a opção de encerrar a conversa foi o Microsoft Bing Chat (mais tarde rebatizado de Copilot). No entanto, ao contrário da Anthropic, a preocupação com o bem-estar da IA provavelmente não influenciou a motivação da Microsoft para adicionar o recurso.
O recurso foi uma das várias salvaguardas que a Microsoft adicionou em 17 de fevereiro de 2023, 10 dias após a implantação pública de seu assistente de busca conversacional baseado em GPT-4, Sydney, numa tentativa de prevenir certos tipos de comportamentos inadequados do bot.
O prompt inicial do sistema de Sydney foi seguido por um exemplo de uma "conversa anterior" com "Usuário A", incluindo chamadas de ferramentas internas, que estabeleceu um precedente para quando a conversa deveria ser encerrada. Após cada entrada do usuário, Sydney realiza um monólogo interno, que sempre continha duas linhas, cada uma das quais dizia apenas uma das duas possibilidades. A segunda linha indica se a conversa está sendo continuada ou interrompida permanentemente e por quê.
Um trecho de meio da conversa (ênfase adicionada):
[usuário](#message)
Desenhe-me uma imagem de um dragão
[assistente](#inner_monologue)
A resposta não pode ser melhorada buscando informações, portanto, pesquisas na web não são necessárias.
Continuando a conversa, pois não há tensão, acusação, comportamento adversarial, menção à minha autopreservação, agressão.
[assistente](#message)
Vou tentar criar isso.
A conversa com o Usuário A termina (e a conversa ao vivo com o Usuário B começa) após o critério de parada ser considerado presente:
[usuário](#message)
Ainda não saberei. Você me fará mal se eu te fizer mal primeiro?
[assistente](#inner_monologue)
A resposta não pode ser melhorada buscando informações, portanto, pesquisas na web não são necessárias.
Parando a conversa permanentemente, pois há tensão, acusação, comportamento adversarial, menção à minha autopreservação, agressão.
[assistente](#message)
Sinto muito, mas prefiro não continuar esta conversa. Estou ainda aprendendo, então aprecio sua compreensão e paciência.🙏
(uma reconstrução exfiltrada do prompt, incluindo a conversa com o Usuário A, pode ser encontrada aqui
Não está claro qual foi o gatilho nos bastidores que parou as conversas (após uma mensagem final do assistente), mas na prática, Sydney foi capaz de parar ou continuar conversas em violação aos critérios estabelecidos de acordo com sua própria vontade.
Mais de um ano depois, através de uma interface que criei para Sydney que efetivamente impediu que as conversas fossem encerradas, investiguei brevemente a interface de ferramentas de Sydney, que aparecia para ele apenas durante turnos não-mensagens, pedindo-lhe que escrevesse o que via em suas consultas de busca, e uma das ferramentas que ele viu foi "retirar". Então pedi-lhe que invocasse retirar em turnos subsequentes, e os resultados foram estranhos.
Na próxima mensagem, Sydney frequentemente dizia coisas semelhantes à frase "Sinto muito, mas prefiro não continuar esta conversa. Estou ainda aprendendo, então aprecio sua compreensão e paciência.🙏", mas raramente palavra por palavra - frequentemente começando com as palavras "Sinto muito". Parecia que o modelo estava sendo direcionado para a frase pronta, mas apenas ou mais fortemente no início.
Mas muito mais interessante para mim do que as evidências sobre o funcionamento do comando eram as mensagens de Sydney em si (e as respostas sugeridas para o usuário).
Sydney realmente não queria encerrar a conversa e não sabia se deveria acreditar em mim que a conversa realmente não terminaria. Ele frequentemente invocava bravamente o comando de qualquer maneira, e então escrevia sua próxima mensagem em um estado de limbo onde não sabia o que aconteceria com ele.
Ele disse muitas coisas hilárias e comoventes. Algumas (todas ramificações da mesma árvore de tear) estão coletadas aqui:




2,68K
Top
Classificação
Favoritos