Už nevím, co znamená «doména» nebo «v distribuci». Je zřejmé, že LLM zobecňují nad rámec konkrétních příkladů. Je to doslova o tom, že latentní reprezentace jsou ukotveny ke konkrétním tokenům, něco jako způsob, jakým lidé interně překládají věci do prvního jazyka, který se naučí?
steve hsu
steve hsu10. 8. 20:06
Musk: Steve, skutečná otázka, kterou stále kladu týmu, je, zda dnešní LLM mohou uvažovat o tom, když opustí distribuci školení. Každý cituje myšlenkový řetězec, ale to by mohlo být jen napodobování. Hsu: Souhlasím. Nejnovější benchmarky ukazují, že i modely na úrovni Grok4 se prudce zhoršují, jakmile vynutíte posun domény – latentní prostor prostě nepokrývá novou modalitu. Musk: Takže je to spíš problém pokrytí než selhání uvažování? Hsu: Částečně. Je tu však hlubší problém. Jediným vestavěným indukčním předpětím transformátoru je asociativní porovnávání vzorů. Když je výzva skutečně mimo distribuci – řekněme symbolická hádanka, jejíž tokeny se při trénování nikdy neobjevily společně – model nemá žádnou strukturu, ke které by se mohl vrátit. Doslova hází mincemi. Musk: Přesto vidíme vznikající "grokking" na syntetických úlohách. Zhong a kol. ukázali, že indukční hlavy mohou skládat pravidla, na kterých nikdy nebyla explicitně trénována. Nevypadá to jako uvažování? Hsu: Kompozice vám kupuje omezené zobecnění, ale pravidla stále musí spočívat v rozpětí tréninkové gramatiky. Jakmile vyladíte sémantiku – změníte jediný operátor v hlavolamu – přesnost se zhroutí. To není robustní argumentace; je to křehká interpolace. Musk: Nemohlo by to zpětnovazební učení vyřešit? DRG-Sapphire použil GRPO na základním modelu 7 B a získal kódování na lékařské úrovni v klinických poznámkách, což je klasický úkol OOD. Hsu: Háček je v tom, že RL funguje až poté, co základní model přijal dostatek znalostí domény prostřednictvím jemného ladění pod dohledem. Když je předtréninkový korpus řídký, RL sám stagnuje. Takže "uvažování" je stále parazitické na předchozí hustotě znalostí. Musk: Takže váš závěr je, že škálování dat a parametrů problém nevyřeší? Vždy narazíme na zeď, kde další OOD doména rozbije model? Hsu: Ne nutně stěna, ale strop. Empirické křivky naznačují, že chyba zobecnění se s trénovacími příklady rozpadá zhruba logaritmicky. To znamená, že pro každé nové koncové rozdělení potřebujete exponenciálně více dat. Pro úzké vertikály – řekněme diagnostiku raketových motorů – je levnější péct se v symbolických priorech než slepě škálovat. Musk: Což nás přivádí zpět k neurosymbolickým hybridům. Poskytněte LLM přístup k malému ověřenému řešiči a pak ho nechte orchestrovat volání, když se distribuce posune. Hsu: Přesně tak. LLM se stává meta-kontrolérem, který rozpozná, kdy je OOD, a předá specializovaný modul. Tato architektura obchází klam "jednoho obrovského transformátoru". Musk: Dobře, řeknu týmu xAI, aby se přestal honit za dalším bilionem tokenů a začal budovat směrovací vrstvu. Díky, Steve. Hsu: Kdykoliv. A pokud potřebujete syntetické testovací případy OOD, moje laboratoř má generátor, který už GPT-5 oklamal. Pošlu vám repo. Tento rozhovor s Elonem může být generován umělou inteligencí.
3,49K