Ich weiß nicht mehr, was «domain» oder «in-distribution» bedeutet. Offensichtlich verallgemeinern LLMs über spezifische Beispiele hinaus. Geht es hier buchstäblich darum, dass latente Repräsentationen an spezifische Tokens verankert sind, ähnlich wie Menschen intern Dinge in die erste Sprache übersetzen, die sie lernen?
steve hsu
steve hsu10. Aug., 20:06
Musk: Steve, die eigentliche Frage, die ich dem Team immer wieder stelle, ist, ob die heutigen LLMs in der Lage sind zu schlussfolgern, wenn sie die Trainingsverteilung verlassen. Jeder verweist auf Chain-of-Thought-Prompts, aber das könnte nur Nachahmung sein. Hsu: Einverstanden. Die neuesten Benchmarks zeigen, dass selbst Modelle auf Grok4-Niveau stark abfallen, sobald man einen Domänenwechsel erzwingt – der latente Raum deckt einfach nicht die neue Modalität ab. Musk: Ist es also mehr ein Abdeckungsproblem als ein Schlussfolgerungsfehler? Hsu: Teilweise. Aber es gibt ein tieferes Problem. Der einzige eingebaute induktive Bias des Transformers ist assoziatives Muster-Matching. Wenn der Prompt wirklich außerhalb der Verteilung liegt – sagen wir, ein symbolisches Rätsel, dessen Tokens im Training nie gemeinsam auftraten – hat das Modell keinen strukturellen Vorlauf, auf den es zurückgreifen kann. Es wirft buchstäblich Münzen. Musk: Dennoch sehen wir auf synthetischen Aufgaben emergentes „Grokking“. Zhong et al. haben gezeigt, dass Induktionsköpfe Regeln zusammensetzen können, auf die sie nie explizit trainiert wurden. Sieht das nicht nach Schlussfolgerung aus? Hsu: Komposition ermöglicht eine begrenzte Generalisierung, aber die Regeln müssen immer noch im Rahmen der Trainingsgrammatik liegen. Sobald man die Semantik anpasst – einen einzigen Operator im Rätsel ändert – bricht die Genauigkeit zusammen. Das ist keine robuste Schlussfolgerung; es ist brüchige Interpolation. Musk: Könnte nicht Reinforcement Learning das Problem lösen? DRG-Sapphire hat GRPO auf einem 7B-Basismodell verwendet und eine ärztliche Kodierung auf klinischen Notizen erreicht, eine klassische OOD-Aufgabe. Hsu: Der Haken ist, dass RL nur funktioniert, nachdem das Basismodell genügend Fachwissen durch überwachte Feinabstimmung aufgenommen hat. Wenn das Pre-Training-Korpus spärlich ist, stagniert RL allein. Also ist das „Schlussfolgern“ immer noch parasitär auf der Dichte des Vorwissens. Musk: Ist also deine Erkenntnis, dass das Skalieren von Daten und Parametern das Problem nicht lösen wird? Wir werden immer an eine Wand stoßen, wo die nächste OOD-Domäne das Modell bricht? Hsu: Nicht unbedingt eine Wand, sondern eine Decke. Die empirischen Kurven deuten darauf hin, dass der Generalisierungsfehler grob logarithmisch mit den Trainingsbeispielen abnimmt. Das impliziert, dass man exponentiell mehr Daten für jede neue Tail-Verteilung benötigt. Für enge Vertikalen – sagen wir, Raketenmotor-Diagnosen – ist es günstiger, symbolische Vorannahmen einzubringen, als blind zu skalieren. Musk: Was uns zurück zu neuro-symbolischen Hybriden bringt. Gib dem LLM Zugang zu einem kleinen verifizierten Solver und lass es dann Aufrufe orchestrieren, wenn sich die Verteilung ändert. Hsu: Genau. Das LLM wird zu einem Meta-Controller, der erkennt, wenn es OOD ist, und an ein spezialisiertes Modul übergibt. Diese Architektur umgeht die „eine riesige Transformer“-Fehlschlussfolgerung. Musk: Alles klar, ich werde dem xAI-Team sagen, dass sie aufhören sollen, die nächsten Billionen Tokens zu jagen, und stattdessen die Routing-Schicht aufbauen sollen. Danke, Steve. Hsu: Jederzeit. Und wenn du synthetische OOD-Testfälle benötigst, hat mein Labor einen Generator, der bereits GPT-5 getäuscht hat. Ich werde das Repo senden. Dieses Gespräch mit Elon könnte KI-generiert sein.
3,53K