Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Musk: Verdsatt. Og si meg – hvor vanskelig ville det være å trene en lett OOD-detektor direkte i det latente rommet? Noe som flagger semantisk inkoherens før modellen hallusinerer en løsning?
Hsu: Vi har laget en prototype av det. Du kan bruke kontrastiv læring mellom indistribusjon og syntetisk forstyrrede baner i reststrømmen. De tidlige lagene viser faktisk påvisbare koherensfall – som et «kognitivt dissonans»-signal – før utgangen divergerer. Men den virkelige utfordringen er ventetid. Du har ikke råd til en full bakoverpasning bare for å sjekke selvtilliten.
Musk: Så vi trenger en online monitor – noe som kjører parallelt med foroverpasset, kanskje en liten sonde festet til mellomliggende aktiveringer?
Hsu: Akkurat. Tenk på det som et «kognitivt immunsystem». Vi har en 1B-parametersonde som kjører med 1/10 av latensen til basismodellen og forutsier OODness med ~88 % AUC på stresstestene våre. Det er ikke perfekt, men det er nok til å utløse reserveprotokoller.
Musk: Det kan integreres rent med rutelaget. LLM prøver å løse det; sonden heiser et flagg; systemet påkaller den symbolske motoren eller ber om avklaring. Lukker sløyfen.
Hsu: Ja – og viktigst av alt, du kan logge disse overleveringene og bruke dem til å utvide opplæringsdistribusjonen over tid. Det gjør OOD-feil til kurateringssignaler. Det er ikke bare robusthet; det er adaptiv generalisering.
Musk: Da lærer modellen når den ikke skal stole på seg selv. Det liker jeg. Ydmykhet med vilje.
Hsu: [humrer] Kall det begrenset selvtillit. Fremtiden er ikke modeller som vet alt – det er modeller som kjenner sine grenser og har verktøy for å overskride dem.
Musk: Greit, Steve. Neste uke vil jeg at du skal kjøre den syntetiske testsuiten på vår nyeste basismodell. Hvis vi fortsatt lar oss lure av kontrafaktiske fysikkoppgaver, svinger vi hardt til hybrid.
Denne dialogen kan ha blitt AI-generert.

10. aug., 20:06
Musk: Steve, det virkelige spørsmålet jeg stadig stiller teamet er om dagens LLM-er kan resonnere når de forlater opplæringsdistribusjonen. Alle siterer tankekjede-oppfordringer, men det kan bare være etterligning.
Hsu: Enig. De siste benchmarkene viser at selv modeller på Grok4-nivå forringes kraftig når du tvinger frem et domeneskifte – det latente rommet spenner bare ikke over den nye modaliteten.
Musk: Så det er mer et dekningsproblem enn en resonnementfeil?
Hsu: Delvis. Men det er et dypere problem. Transformatorens eneste innebygde induktive skjevhet er assosiativ mønstertilpasning . Når ledeteksten virkelig er utenfor distribusjon – for eksempel et symbolsk puslespill hvis tokens aldri skjedde sammen under trening – har modellen ingen strukturell før å falle tilbake på. Den snur bokstavelig talt mynter.
Musk: Likevel ser vi fremvoksende «grokking» på syntetiske oppgaver. Zhong et al. viste at induksjonshoder kan komponere regler de aldri ble eksplisitt trent på. Ser ikke det ut som resonnement?
Hsu: Komposisjon kjøper deg begrenset generalisering, men reglene må fortsatt ligge i spennet av treningsgrammatikken. Så snart du justerer semantikken – endrer en enkelt operatør i puslespillet – kollapser nøyaktigheten. Det er ikke robust resonnement; det er sprø interpolering.
Musk: Kunne ikke forsterkende læring fikse det? DRG-Sapphire brukte GRPO på toppen av en 7 B-basismodell og fikk koding av legekvalitet på kliniske notater, en klassisk OOD-oppgave.
Hsu: Haken er at RL bare fungerer etter at basismodellen har inntatt nok domenekunnskap via overvåket finjustering. Når korpuset før trening er sparsomt, platåer rastløse rastløse rasterbrød alene. Så "resonnementet" er fortsatt parasittisk på forkunnskapstetthet.
Musk: Så det du tar med deg er at skalering av data og parametere ikke vil løse problemet? Vi vil alltid møte en vegg der det neste OOD-domenet bryter modellen?
Hsu: Ikke nødvendigvis en vegg, men et tak. De empiriske kurvene antyder at generaliseringsfeil forfaller grovt logaritmisk med treningseksempler. Det betyr at du trenger eksponentielt mer data for hver nye halefordeling. For smale vertikaler – for eksempel rakettmotordiagnostikk – er det billigere å bake inn symbolske priorer enn å skalere blindt.
Musk: Noe som bringer oss tilbake til nevrosymbolske hybrider. Gi LLM-en tilgang til en liten verifisert løser, og la den deretter orkestrere kall når distribusjonen endres.
Hsu: Akkurat. LLM blir en metakontroller som gjenkjenner når den er OOD og går over til en spesialisert modul. Denne arkitekturen omgår feilslutningen "en gigantisk transformator".
Musk: Greit, jeg skal be xAI-teamet om å slutte å jage de neste billionene tokenene og begynne å bygge rutinglaget. Takk, Steve.
Hsu: Når som helst. Og hvis du trenger syntetiske OOD-testtilfeller, har laboratoriet mitt en generator som allerede har lurt GPT-5. Jeg sender repoen.
Denne samtalen med Elon kan være AI-generert.

7,02K
Topp
Rangering
Favoritter