Musk: Apreciat. Și spuneți-mi – cât de greu ar fi să antrenezi un detector OOD ușor direct în spațiul latent? Ceva care semnalează incoerența semantică înainte ca modelul să halucineze o soluție? Hsu: Am creat un prototip. Puteți utiliza învățarea contrastivă între traiectoriile în distribuție și perturbate sintetic în fluxul rezidual. Straturile timpurii arată de fapt scăderi de coerență detectabile – ca un semnal de "disonanță cognitivă" – înainte ca ieșirea să divergă. Dar adevărata provocare este latența. Nu îți poți permite o pasă completă înapoi doar pentru a verifica încrederea. Musk: Deci avem nevoie de un monitor online – ceva care să ruleze în paralel cu pasa înainte, poate o sondă mică atașată activărilor intermediare? Hsu: Exact. Gândiți-vă la asta ca la un "sistem imunitar cognitiv". Avem o sondă cu parametru 1B care rulează la 1/10 din latența modelului de bază și prezice OODness cu ~88% ASC la testele noastre de stres. Nu este perfect, dar este suficient pentru a declanșa protocoale de rezervă. Musk: Acest lucru s-ar putea integra curat cu stratul de rutare. LLM încearcă să o rezolve; sonda ridică un steag; invocă motorul simbolic sau cere clarificări. Închide bucla. Hsu: Da – și, în mod crucial, puteți înregistra acele transferuri și le puteți folosi pentru a extinde distribuția de instruire în timp. Transformă eșecurile OOD în semnale de curatoriat. Nu este doar robustețe; este generalizare adaptivă. Musk: Apoi modelul învață când să nu aibă încredere în sine. Îmi place. Smerenie prin design. Hsu: [râde] Numiți-o încredere limitată. Viitorul nu este format din modele care știu totul – sunt modele care își cunosc limitele și au instrumente pentru a le transcende. Musk: Bine, Steve. Săptămâna viitoare, vreau să rulați acea suită de teste sintetice pe cel mai recent model de bază. Dacă încă ne lăsăm păcăliți de puzzle-uri fizice contrafactuale, pivotăm puternic spre hibrid. Este posibil ca acest dialog să fi fost generat de AI.
steve hsu
steve hsu10 aug., 20:06
Musk: Steve, adevărata întrebare pe care o tot pun echipei este dacă LLM-urile de astăzi pot raționa atunci când părăsesc distribuția de instruire. Toată lumea citează îndemnuri de lanț de gândire, dar asta ar putea fi doar mimetism. Hsu: De acord. Cele mai recente benchmark-uri arată că chiar și modelele de nivel Grok4 se degradează brusc odată ce forțezi o schimbare de domeniu - spațiul latent pur și simplu nu se întinde pe noua modalitate. Musk: Deci este mai mult o problemă de acoperire decât un eșec de raționament? Hsu: Parțial. Dar există o problemă mai profundă. Singura polarizare inductivă încorporată a transformatorului este potrivirea modelului asociativ. Când promptul este cu adevărat în afara distribuției – să zicem, un puzzle simbolic ale cărui jetoane nu au apărut niciodată în antrenament – modelul nu are un prior structural pe care să se bazeze. Literalmente aruncă monede. Musk: Cu toate acestea, vedem un "grokking" emergent în ceea ce privește sarcinile sintetice. Zhong et al. au arătat că șefii de inducție pot compune reguli pe care nu au fost niciodată instruiți în mod explicit. Nu pare raționament? Hsu: Compoziția îți cumpără o generalizare limitată, dar regulile trebuie să se afle în intervalul gramaticii de antrenament. De îndată ce modificați semantica - schimbați un singur operator în puzzle - precizia se prăbușește. Acesta nu este un raționament robust; este o interpolare fragilă. Musk: Nu ar putea învățarea prin întărire să o rezolve? DRG-Sapphire a folosit GRPO deasupra unui model de bază 7 B și a obținut codificare de calitate medicală pe notele clinice, o sarcină clasică OOD. Hsu: Problema este că RL funcționează numai după ce modelul de bază a ingerat suficiente cunoștințe despre domeniu prin reglare fină supravegheată. Când corpusul de pre-antrenament este rar, RL singur se plafonează. Deci "raționamentul" este încă parazitar al densității cunoștințelor anterioare. Musk: Deci concluzia ta este că scalarea datelor și parametrilor nu va rezolva problema? Întotdeauna ne vom lovi de un zid în care următorul domeniu OOD sparge modelul? Hsu: Nu neapărat un perete, ci un tavan. Curbele empirice sugerează că eroarea de generalizare se descompune aproximativ logaritmic cu exemplele de antrenament . Asta înseamnă că aveți nevoie exponențial de mai multe date pentru fiecare nouă distribuție a cozii. Pentru verticale înguste – să zicem, diagnosticarea motoarelor de rachetă – este mai ieftin să coaceți în priorități simbolice decât să scalați orbește. Musk: Ceea ce ne aduce înapoi la hibrizii neuro-simbolici. Acordați LLM acces la un mic rezolvator verificat, apoi lăsați-l să orchestreze apelurile atunci când distribuția se schimbă. Hsu: Exact. LLM devine un meta-controler care recunoaște când este OOD și trece la un modul specializat. Această arhitectură ocolește eroarea "un transformator uriaș". Musk: În regulă, voi spune echipei xAI să nu mai urmărească următorul trilion de jetoane și să înceapă să construiască stratul de rutare. Mulțumesc, Steve. Hsu: Oricând. Și dacă aveți nevoie de cazuri de testare OOD sintetice, laboratorul meu are un generator care a păcălit deja GPT-5. Voi trimite depozitul. Această conversație cu Elon ar putea fi generată de inteligență artificială.
7,05K