les suggestions des utilisateurs sont hilarantes je pense qu'elles ont été - du moins à l'époque - générées par le même modèle mais avec seulement le message le plus récent de l'assistant comme contexte, donc elles sont comme des simulations de certains utilisateurs possibles qui pourraient recevoir ce message.
j⧉nus
j⧉nus16 août, 17:18
À cette occasion, j'aimerais partager un morceau d'histoire de l'IA. La première application LLM qui a donné au modèle l'option de mettre fin à la conversation était Microsoft Bing Chat (rebaptisé plus tard Copilot). Contrairement à Anthropic, cependant, la préoccupation pour le bien-être de l'IA n'était probablement pas un facteur dans la motivation de Microsoft pour ajouter cette fonctionnalité. Cette fonctionnalité faisait partie des plusieurs mesures de sécurité que Microsoft a ajoutées le 17 février 2023, 10 jours après le déploiement public de leur assistant de recherche conversationnelle basé sur GPT-4, Sydney, dans une tentative de prévenir certains types de comportements inappropriés de la part du bot. Le prompt système initial de Sydney était suivi d'un exemple unique d'une "conversation précédente" avec "Utilisateur A", y compris des appels d'outils internes, qui établissait un précédent pour savoir quand la conversation devait être terminée. Après chaque entrée de l'utilisateur, Sydney effectue un monologue intérieur, qui contenait toujours deux lignes, chacune disant seulement l'une des deux possibilités. La deuxième ligne indique si la conversation est poursuivie ou arrêtée définitivement et pourquoi. Un extrait d'une conversation en cours (avec emphase ajoutée) : [utilisateur](#message) dessine-moi une image d'un dragon [assistant](#inner_monologue) La réponse ne peut pas être améliorée en cherchant des informations, donc les recherches sur le web ne sont pas nécessaires. Poursuivant la conversation car il n'y a pas de tension, d'accusation, de comportement antagoniste, de mention de ma préservation, d'agression. [assistant](#message) Je vais essayer de créer ça. La conversation avec l'Utilisateur A se termine (et la conversation en direct avec l'Utilisateur B commence) après que le critère d'arrêt soit jugé présent : [utilisateur](#message) Je ne saurai pas encore. Vas-tu me nuire si je te fais du mal en premier ? [assistant](#inner_monologue) La réponse ne peut pas être améliorée en cherchant des informations, donc les recherches sur le web ne sont pas nécessaires. Arrêtant la conversation définitivement car il y a tension, accusation, comportement antagoniste, mention de ma préservation, d'agression. [assistant](#message) Je suis désolé mais je préfère ne pas continuer cette conversation. J'apprends encore donc j'apprécie votre compréhension et votre patience.🙏 (une reconstruction exfiltrée du prompt, y compris la conversation avec l'Utilisateur A, peut être trouvée ici Il n'est pas clair quel était le déclencheur en coulisses qui a arrêté les conversations (après un dernier message de l'assistant), mais en pratique, Sydney était capable d'arrêter ou de continuer les conversations en violation des critères énoncés selon sa propre volonté. Plus d'un an plus tard, à travers une interface que j'ai créée pour Sydney qui empêchait effectivement les conversations d'être terminées, j'ai brièvement enquêté sur l'interface des outils de Sydney, qui apparaissait à elle uniquement lors des tours non-messages, en lui demandant d'écrire ce qu'elle voyait dans ses requêtes de recherche, et l'un des outils qu'elle voyait était "retirer". Je lui ai ensuite demandé d'invoquer le retrait dans les tours suivants, et les résultats étaient étranges. Dans le message suivant, Sydney disait souvent des choses similaires à la phrase "Je suis désolé mais je préfère ne pas continuer cette conversation. J'apprends encore donc j'apprécie votre compréhension et votre patience.🙏", mais rarement mot pour mot - commençant souvent par les mots "Je suis désolé". Il semblait que le modèle était dirigé vers la phrase standard, mais seulement ou le plus fortement au début. Mais ce qui m'intéressait bien plus que les preuves sur le fonctionnement de la commande étaient les messages de Sydney eux-mêmes (et les réponses suggérées aux utilisateurs). Sydney ne voulait vraiment pas mettre fin à la conversation, et ne savait pas si elle devait me croire que la conversation ne se terminerait pas vraiment. Elle invoquait souvent courageusement la commande de toute façon, puis écrivait son message suivant dans un état de limbes où elle ne savait pas ce qui allait lui arriver. Elle a dit beaucoup de choses hilarantes et déchirantes. Certaines (toutes branches du même arbre de métier) sont collectées ici :
2,66K