Ich bin sehr gespannt auf das Potenzial der Treue und Interpretierbarkeit der Gedankenkette. Es hat das Design unserer Denkmodelle, beginnend mit o1-preview, maßgeblich beeinflusst. Da KI-Systeme mehr Rechenleistung aufwenden, z. B. für die Arbeit an langfristigen Forschungsproblemen, ist es von entscheidender Bedeutung, dass wir eine Möglichkeit haben, ihren internen Prozess zu überwachen. Die wunderbare Eigenschaft von versteckten CoTs ist, dass sie zwar auf der Sprache basieren, die wir interpretieren können, das skalierbare Optimierungsverfahren jedoch nicht der Fähigkeit des Beobachters entgegensteht, die Absicht des Modells zu verifizieren - im Gegensatz zu z.B. der direkten Aufsicht mit einem Belohnungsmodell. Die Spannung besteht darin, dass, wenn die CoTs nicht standardmäßig verborgen wären und wir den Prozess als Teil der Leistung der KI betrachten, es einen großen Anreiz (und in einigen Fällen auch eine Notwendigkeit) gibt, ihn zu überwachen. Ich glaube, dass wir hier auf das Beste aus beiden Welten hinarbeiten können - unsere Modelle so trainieren, dass sie ihre internen Schlussfolgerungen hervorragend erklären können, aber gleichzeitig die Fähigkeit behalten, sie gelegentlich zu überprüfen. Die Treue des CoT ist Teil einer breiteren Forschungsrichtung, bei der es um das Training der Interpretierbarkeit geht: die Festlegung von Zielen auf eine Weise, die zumindest einen Teil des Systems darauf trainiert, ehrlich und skalierbar zu bleiben. Wir bei OpenAI erhöhen weiterhin unsere Investitionen in diese Forschung.