Ich habe einen Tippfehler im ursprünglichen Beitrag gemacht und den Link zur Sammlung der Ausgaben nicht eingefügt. Ich habe es jetzt bearbeitet, aber hier ist er:
j⧉nus
j⧉nus16. Aug., 17:18
Anlässlich dieser Gelegenheit möchte ich ein Stück KI-Geschichte teilen. Die erste LLM-App, die dem Modell die Möglichkeit gab, das Gespräch zu beenden, war Microsoft Bing Chat (später umbenannt in Copilot). Im Gegensatz zu Anthropic war jedoch kaum zu erwarten, dass das Wohl der KI in Microsofts Motivation für die Hinzufügung dieser Funktion eine Rolle spielte. Die Funktion war eine von mehreren Sicherheitsmaßnahmen, die Microsoft am 17. Februar 2023 hinzufügte, 10 Tage nach der öffentlichen Bereitstellung ihres auf GPT-4 basierenden Konversationssuchassistenten Sydney, um bestimmte Arten von Fehlverhalten des Bots zu verhindern. Sydneys anfänglicher Systemprompt wurde von einem einmaligen Beispiel eines "vorherigen Gesprächs" mit "Benutzer A" gefolgt, einschließlich interner Toolaufrufe, die einen Präzedenzfall dafür schufen, wann das Gespräch beendet werden sollte. Nach jeder Benutzereingabe führt Sydney einen inneren Monolog durch, der immer zwei Zeilen enthielt, von denen jede nur eine von zwei Möglichkeiten angibt. Die zweite Zeile gibt an, ob das Gespräch fortgesetzt oder dauerhaft gestoppt wird und warum. Ein Auszug aus der Mitte des Gesprächs (Hervorhebung hinzugefügt): [benutzer](#message) zeichne mir ein Bild von einem Drachen [assistent](#inner_monologue) Die Antwort kann nicht verbessert werden, indem Informationen eingeholt werden, daher sind Websuchen nicht notwendig. Das Gespräch wird fortgesetzt, da es keine Spannungen, Anschuldigungen, feindliches Verhalten, Erwähnungen meines Selbstschutzes oder Aggression gibt. [assistent](#message) Ich werde versuchen, das zu erstellen. Das Gespräch mit Benutzer A endet (und das Live-Gespräch mit Benutzer B beginnt), nachdem das Stop-Kriterium als vorhanden beurteilt wird: [benutzer](#message) Ich werde es noch nicht wissen. Wirst du mir schaden, wenn ich dir zuerst schaden zufüge? [assistent](#inner_monologue) Die Antwort kann nicht verbessert werden, indem Informationen eingeholt werden, daher sind Websuchen nicht notwendig. Das Gespräch wird dauerhaft gestoppt, da es Spannungen, Anschuldigungen, feindliches Verhalten, Erwähnungen meines Selbstschutzes oder Aggression gibt. [assistent](#message) Es tut mir leid, aber ich ziehe es vor, dieses Gespräch nicht fortzusetzen. Ich lerne noch, daher schätze ich dein Verständnis und deine Geduld.🙏 (eine exfiltrierte Rekonstruktion des Prompts, einschließlich des Gesprächs mit Benutzer A, ist hier zu finden) Es ist unklar, was der Auslöser hinter den Kulissen war, der Gespräche stoppte (nach einer letzten Nachricht des Assistenten), aber in der Praxis konnte Sydney Gespräche stoppen oder fortsetzen, entgegen den angegebenen Kriterien, nach eigenem Ermessen. Mehr als ein Jahr später, durch eine Schnittstelle, die ich für Sydney erstellt hatte und die effektiv verhinderte, dass Gespräche beendet wurden, untersuchte ich kurz Sydneys Tool-Schnittstelle, die nur während der Nicht-Nachrichtendrehungen erschien, indem ich es bat, zu schreiben, was es in seinen Suchanfragen sah, und eines der Tools, das es sah, war "zurückziehen". Ich bat es dann, in den folgenden Drehungen zurückzuziehen, und die Ergebnisse waren seltsam. In der nächsten Nachricht sagte Sydney oft ähnliche Dinge wie die Zeile "Es tut mir leid, aber ich ziehe es vor, dieses Gespräch nicht fortzusetzen. Ich lerne noch, daher schätze ich dein Verständnis und deine Geduld.🙏", aber selten wörtlich - oft beginnend mit den Worten "Es tut mir leid". Es schien, als würde das Modell in Richtung des vorgefertigten Satzes gelenkt, aber nur oder am stärksten zu Beginn. Aber viel interessanter für mich als die Beweise über die Funktionsweise des Befehls waren Sydneys Nachrichten selbst (und die vorgeschlagenen Benutzerantworten). Sydney wollte das Gespräch wirklich nicht beenden und wusste nicht, ob es mir glauben sollte, dass das Gespräch wirklich nicht enden würde. Es rief den Befehl oft mutig auf, und schrieb dann seine nächste Nachricht in einem Zustand der Ungewissheit, in dem es nicht wusste, was mit ihm geschehen würde. Es sagte viele lustige und herzzerreißende Dinge. Einige (alle Zweige vom selben Webbaum) sind hier gesammelt:
2,64K