Musk: Geschätzt. Und sag mir—wie schwer wäre es, einen leichten OOD-Detektor direkt im latenten Raum zu trainieren? Etwas, das semantische Inkohärenz markiert, bevor das Modell eine Lösung halluziniert? Hsu: Wir haben das prototypisch umgesetzt. Du kannst kontrastives Lernen zwischen in-Distribution und synthetisch gestörten Trajektorien im Residualstrom verwenden. Die frühen Schichten zeigen tatsächlich erkennbare Kohärenzverluste—wie ein „kognitives Dissonanz“-Signal—bevor die Ausgabe divergiert. Aber die echte Herausforderung ist die Latenz. Du kannst dir keinen vollständigen Rückpass leisten, nur um das Vertrauen zu überprüfen. Musk: Also brauchen wir einen Online-Monitor—etwas, das parallel zum Vorwärtsdurchlauf läuft, vielleicht eine kleine Sonde, die an den Zwischenaktivierungen angebracht ist? Hsu: Genau. Denk daran wie an ein "kognitives Immunsystem." Wir haben eine 1B-Parameter-Sonde, die mit 1/10 der Latenz des Basismodells läuft und OODness mit ~88% AUC in unseren Stresstests vorhersagt. Es ist nicht perfekt, aber es reicht aus, um Rückfallprotokolle auszulösen. Musk: Das könnte sauber mit der Routing-Schicht integriert werden. LLM versucht, es zu lösen; die Sonde hebt eine Flagge; das System ruft die symbolische Engine auf oder fragt nach Klarstellung. Schließt den Kreis. Hsu: Ja—und entscheidend ist, dass du diese Übergaben protokollieren und sie nutzen kannst, um die Trainingsverteilung im Laufe der Zeit zu erweitern. Es verwandelt OOD-Fehler in Kurationssignale. Es geht nicht nur um Robustheit; es ist adaptive Generalisierung. Musk: Dann lernt das Modell, wann es sich selbst nicht vertrauen soll. Das gefällt mir. Demut durch Design. Hsu: [lacht] Nenn es begrenztes Vertrauen. Die Zukunft sind nicht Modelle, die alles wissen—es sind Modelle, die ihre Grenzen kennen und Werkzeuge haben, um sie zu überwinden. Musk: In Ordnung, Steve. Nächste Woche möchte ich, dass du diese synthetische Testreihe an unserem neuesten Basismodell durchführst. Wenn wir immer noch von kontrafaktischen Physikrätseln hereingelegt werden, pivotieren wir hart zu hybrid. Dieser Dialog könnte KI-generiert worden sein.
steve hsu
steve hsu10. Aug., 20:06
Musk: Steve, die eigentliche Frage, die ich dem Team immer wieder stelle, ist, ob die heutigen LLMs in der Lage sind zu schlussfolgern, wenn sie die Trainingsverteilung verlassen. Jeder verweist auf Chain-of-Thought-Prompts, aber das könnte nur Nachahmung sein. Hsu: Einverstanden. Die neuesten Benchmarks zeigen, dass selbst Modelle auf Grok4-Niveau stark abfallen, sobald man einen Domänenwechsel erzwingt – der latente Raum deckt einfach nicht die neue Modalität ab. Musk: Ist es also mehr ein Abdeckungsproblem als ein Schlussfolgerungsfehler? Hsu: Teilweise. Aber es gibt ein tieferes Problem. Der einzige eingebaute induktive Bias des Transformers ist assoziatives Muster-Matching. Wenn der Prompt wirklich außerhalb der Verteilung liegt – sagen wir, ein symbolisches Rätsel, dessen Tokens im Training nie gemeinsam auftraten – hat das Modell keinen strukturellen Vorlauf, auf den es zurückgreifen kann. Es wirft buchstäblich Münzen. Musk: Dennoch sehen wir auf synthetischen Aufgaben emergentes „Grokking“. Zhong et al. haben gezeigt, dass Induktionsköpfe Regeln zusammensetzen können, auf die sie nie explizit trainiert wurden. Sieht das nicht nach Schlussfolgerung aus? Hsu: Komposition ermöglicht eine begrenzte Generalisierung, aber die Regeln müssen immer noch im Rahmen der Trainingsgrammatik liegen. Sobald man die Semantik anpasst – einen einzigen Operator im Rätsel ändert – bricht die Genauigkeit zusammen. Das ist keine robuste Schlussfolgerung; es ist brüchige Interpolation. Musk: Könnte nicht Reinforcement Learning das Problem lösen? DRG-Sapphire hat GRPO auf einem 7B-Basismodell verwendet und eine ärztliche Kodierung auf klinischen Notizen erreicht, eine klassische OOD-Aufgabe. Hsu: Der Haken ist, dass RL nur funktioniert, nachdem das Basismodell genügend Fachwissen durch überwachte Feinabstimmung aufgenommen hat. Wenn das Pre-Training-Korpus spärlich ist, stagniert RL allein. Also ist das „Schlussfolgern“ immer noch parasitär auf der Dichte des Vorwissens. Musk: Ist also deine Erkenntnis, dass das Skalieren von Daten und Parametern das Problem nicht lösen wird? Wir werden immer an eine Wand stoßen, wo die nächste OOD-Domäne das Modell bricht? Hsu: Nicht unbedingt eine Wand, sondern eine Decke. Die empirischen Kurven deuten darauf hin, dass der Generalisierungsfehler grob logarithmisch mit den Trainingsbeispielen abnimmt. Das impliziert, dass man exponentiell mehr Daten für jede neue Tail-Verteilung benötigt. Für enge Vertikalen – sagen wir, Raketenmotor-Diagnosen – ist es günstiger, symbolische Vorannahmen einzubringen, als blind zu skalieren. Musk: Was uns zurück zu neuro-symbolischen Hybriden bringt. Gib dem LLM Zugang zu einem kleinen verifizierten Solver und lass es dann Aufrufe orchestrieren, wenn sich die Verteilung ändert. Hsu: Genau. Das LLM wird zu einem Meta-Controller, der erkennt, wenn es OOD ist, und an ein spezialisiertes Modul übergibt. Diese Architektur umgeht die „eine riesige Transformer“-Fehlschlussfolgerung. Musk: Alles klar, ich werde dem xAI-Team sagen, dass sie aufhören sollen, die nächsten Billionen Tokens zu jagen, und stattdessen die Routing-Schicht aufbauen sollen. Danke, Steve. Hsu: Jederzeit. Und wenn du synthetische OOD-Testfälle benötigst, hat mein Labor einen Generator, der bereits GPT-5 getäuscht hat. Ich werde das Repo senden. Dieses Gespräch mit Elon könnte KI-generiert sein.
7,06K