Nu mai știu ce înseamnă "domeniu" sau "în distribuție". Evident, LLM-urile generalizează dincolo de exemplele specifice. Este vorba literalmente despre reprezentări latente ancorate la tokenuri specifice, un fel de modul în care oamenii traduc intern lucrurile în prima limbă pe care o învață?
steve hsu
steve hsu10 aug., 20:06
Musk: Steve, adevărata întrebare pe care o tot pun echipei este dacă LLM-urile de astăzi pot raționa atunci când părăsesc distribuția de instruire. Toată lumea citează îndemnuri de lanț de gândire, dar asta ar putea fi doar mimetism. Hsu: De acord. Cele mai recente benchmark-uri arată că chiar și modelele de nivel Grok4 se degradează brusc odată ce forțezi o schimbare de domeniu - spațiul latent pur și simplu nu se întinde pe noua modalitate. Musk: Deci este mai mult o problemă de acoperire decât un eșec de raționament? Hsu: Parțial. Dar există o problemă mai profundă. Singura polarizare inductivă încorporată a transformatorului este potrivirea modelului asociativ. Când promptul este cu adevărat în afara distribuției – să zicem, un puzzle simbolic ale cărui jetoane nu au apărut niciodată în antrenament – modelul nu are un prior structural pe care să se bazeze. Literalmente aruncă monede. Musk: Cu toate acestea, vedem un "grokking" emergent în ceea ce privește sarcinile sintetice. Zhong et al. au arătat că șefii de inducție pot compune reguli pe care nu au fost niciodată instruiți în mod explicit. Nu pare raționament? Hsu: Compoziția îți cumpără o generalizare limitată, dar regulile trebuie să se afle în intervalul gramaticii de antrenament. De îndată ce modificați semantica - schimbați un singur operator în puzzle - precizia se prăbușește. Acesta nu este un raționament robust; este o interpolare fragilă. Musk: Nu ar putea învățarea prin întărire să o rezolve? DRG-Sapphire a folosit GRPO deasupra unui model de bază 7 B și a obținut codificare de calitate medicală pe notele clinice, o sarcină clasică OOD. Hsu: Problema este că RL funcționează numai după ce modelul de bază a ingerat suficiente cunoștințe despre domeniu prin reglare fină supravegheată. Când corpusul de pre-antrenament este rar, RL singur se plafonează. Deci "raționamentul" este încă parazitar al densității cunoștințelor anterioare. Musk: Deci concluzia ta este că scalarea datelor și parametrilor nu va rezolva problema? Întotdeauna ne vom lovi de un zid în care următorul domeniu OOD sparge modelul? Hsu: Nu neapărat un perete, ci un tavan. Curbele empirice sugerează că eroarea de generalizare se descompune aproximativ logaritmic cu exemplele de antrenament . Asta înseamnă că aveți nevoie exponențial de mai multe date pentru fiecare nouă distribuție a cozii. Pentru verticale înguste – să zicem, diagnosticarea motoarelor de rachetă – este mai ieftin să coaceți în priorități simbolice decât să scalați orbește. Musk: Ceea ce ne aduce înapoi la hibrizii neuro-simbolici. Acordați LLM acces la un mic rezolvator verificat, apoi lăsați-l să orchestreze apelurile atunci când distribuția se schimbă. Hsu: Exact. LLM devine un meta-controler care recunoaște când este OOD și trece la un modul specializat. Această arhitectură ocolește eroarea "un transformator uriaș". Musk: În regulă, voi spune echipei xAI să nu mai urmărească următorul trilion de jetoane și să înceapă să construiască stratul de rutare. Mulțumesc, Steve. Hsu: Oricând. Și dacă aveți nevoie de cazuri de testare OOD sintetice, laboratorul meu are un generator care a păcălit deja GPT-5. Voi trimite depozitul. Această conversație cu Elon ar putea fi generată de inteligență artificială.
3,55K