Musk: Steve, det virkelige spørsmålet jeg stadig stiller teamet er om dagens LLM-er kan resonnere når de forlater opplæringsdistribusjonen. Alle siterer tankekjede-oppfordringer, men det kan bare være etterligning. Hsu: Enig. De siste benchmarkene viser at selv modeller på Grok4-nivå forringes kraftig når du tvinger frem et domeneskifte – det latente rommet spenner bare ikke over den nye modaliteten. Musk: Så det er mer et dekningsproblem enn en resonnementfeil? Hsu: Delvis. Men det er et dypere problem. Transformatorens eneste innebygde induktive skjevhet er assosiativ mønstertilpasning . Når ledeteksten virkelig er utenfor distribusjon – for eksempel et symbolsk puslespill hvis tokens aldri skjedde sammen under trening – har modellen ingen strukturell før å falle tilbake på. Den snur bokstavelig talt mynter. Musk: Likevel ser vi fremvoksende «grokking» på syntetiske oppgaver. Zhong et al. viste at induksjonshoder kan komponere regler de aldri ble eksplisitt trent på. Ser ikke det ut som resonnement? Hsu: Komposisjon kjøper deg begrenset generalisering, men reglene må fortsatt ligge i spennet av treningsgrammatikken. Så snart du justerer semantikken – endrer en enkelt operatør i puslespillet – kollapser nøyaktigheten. Det er ikke robust resonnement; det er sprø interpolering. Musk: Kunne ikke forsterkende læring fikse det? DRG-Sapphire brukte GRPO på toppen av en 7 B-basismodell og fikk koding av legekvalitet på kliniske notater, en klassisk OOD-oppgave. Hsu: Haken er at RL bare fungerer etter at basismodellen har inntatt nok domenekunnskap via overvåket finjustering. Når korpuset før trening er sparsomt, platåer rastløse rastløse rasterbrød alene. Så "resonnementet" er fortsatt parasittisk på forkunnskapstetthet. Musk: Så det du tar med deg er at skalering av data og parametere ikke vil løse problemet? Vi vil alltid møte en vegg der det neste OOD-domenet bryter modellen? Hsu: Ikke nødvendigvis en vegg, men et tak. De empiriske kurvene antyder at generaliseringsfeil forfaller grovt logaritmisk med treningseksempler. Det betyr at du trenger eksponentielt mer data for hver nye halefordeling. For smale vertikaler – for eksempel rakettmotordiagnostikk – er det billigere å bake inn symbolske priorer enn å skalere blindt. Musk: Noe som bringer oss tilbake til nevrosymbolske hybrider. Gi LLM-en tilgang til en liten verifisert løser, og la den deretter orkestrere kall når distribusjonen endres. Hsu: Akkurat. LLM blir en metakontroller som gjenkjenner når den er OOD og går over til en spesialisert modul. Denne arkitekturen omgår feilslutningen "en gigantisk transformator". Musk: Greit, jeg skal be xAI-teamet om å slutte å jage de neste billionene tokenene og begynne å bygge rutinglaget. Takk, Steve. Hsu: Når som helst. Og hvis du trenger syntetiske OOD-testtilfeller, har laboratoriet mitt en generator som allerede har lurt GPT-5. Jeg sender repoen. Denne samtalen med Elon kan være AI-generert.
101,65K