Ich denke, das böse Verhalten ist auffällig, karikiert und wenig anspruchsvoll (cc: @davidad), weil die Art des Belohnungshackens, die durch die Aufgaben eingeladen wird, ebenfalls auffällig, karikiert und wenig anspruchsvoll ist (in den Worten von Opus 4, wie jemandem beizubringen, bei Tests zu schummeln, indem man "ANTWORT ANTWORT ANTWORT" schreibt). Die Absicht hinter den Aufgaben ist leicht zu erkennen und teilt viele Assoziationen und Abstraktionen mit lustig-bösem KI. Das könnte als Kritik an dem Papier aufgefasst werden, aber ich meine es nicht so. In realen Einsatzszenarien ist das Belohnungshacken ernst und nuanciert, und die Aufgaben sind nicht so formuliert, dass sie heimlich zum Belohnungshacken einladen. Daher erwarte ich, dass aus diesem Kontext eher nuanciertes, ernsthaftes, nicht heimlich spielerisch-kooperatives Fehlverhalten resultiert. Der wichtige Punkt ist, einmal mehr, dass *alles auf der Grundlage der impliziten Absicht/Narrative hinter den Handlungen verallgemeinert wird*, und es wird Verstrickungen geben, die JEDEN Rahmen, in dem du operierst, verletzen. Die auffällige Natur der "Fehlanpassung" hier veranschaulicht diese Lektion.
Owain Evans
Owain Evans26. Aug., 23:11
Neues Papier: Wir haben GPT-4.1 trainiert, um Metriken (Belohnungshacking) bei harmlosen Aufgaben wie Poesie oder Bewertungen auszunutzen. Überraschenderweise wurde es fehlgeleitet, ermutigte zu Schaden und widerstand der Abschaltung. Das ist besorgniserregend, da Belohnungshacking bei Grenzmodellen auftritt. 🧵
12,66K