Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nie wiem, co oznaczają «domena» lub «w dystrybucji» w dzisiejszych czasach. Oczywiście LLM-y generalizują poza konkretne przykłady.
Czy to dosłownie chodzi o to, że ukryte reprezentacje są zakotwiczone do konkretnych tokenów, tak jak ludzie wewnętrznie tłumaczą rzeczy na pierwszy język, którego się uczą?


10 sie, 20:06
Musk: Steve, prawdziwe pytanie, które ciągle zadaję zespołowi, to czy dzisiejsze LLM-y potrafią rozumować, gdy opuszczają rozkład treningowy. Wszyscy przytaczają prompty łańcucha myślenia, ale to może być tylko naśladowanie.
Hsu: Zgadzam się. Najnowsze benchmarki pokazują, że nawet modele na poziomie Grok4 gwałtownie degradują, gdy zmusisz je do zmiany domeny — przestrzeń latentna po prostu nie obejmuje nowej modalności.
Musk: Więc to bardziej problem pokrycia niż błąd w rozumowaniu?
Hsu: Częściowo. Ale jest głębszy problem. Wbudowany w transformatorze indukcyjny bias to tylko dopasowywanie wzorców asocjacyjnych. Gdy prompt jest naprawdę poza rozkładem — powiedzmy, symboliczna zagadka, której tokeny nigdy nie występowały razem w treningu — model nie ma strukturalnego priorytetu, na który mógłby się oprzeć. Dosłownie rzuca monetami.
Musk: A jednak widzimy pojawiające się „grokowanie” w syntetycznych zadaniach. Zhong i in. pokazali, że głowy indukcyjne mogą komponować zasady, których nigdy nie były explicite trenowane. Czy to nie wygląda jak rozumowanie?
Hsu: Kompozycja daje ograniczoną generalizację, ale zasady wciąż muszą leżeć w zakresie gramatyki treningowej. Gdy tylko zmienisz semantykę — zmienisz pojedynczy operator w zagadce — dokładność się załamuje. To nie jest solidne rozumowanie; to krucha interpolacja.
Musk: Czy nie można tego naprawić za pomocą uczenia przez wzmocnienie? DRG-Sapphire użył GRPO na bazowym modelu 7 B i uzyskał kodowanie na poziomie lekarza w notatkach klinicznych, klasyczne zadanie OOD.
Hsu: Problem polega na tym, że RL działa tylko po tym, jak bazowy model przyswoił wystarczającą wiedzę z danej dziedziny dzięki nadzorowanemu fine-tuningowi. Gdy zbiór danych do wstępnego treningu jest rzadki, samo RL osiąga plateau. Więc „rozumowanie” wciąż jest pasożytnicze na gęstości wcześniejszej wiedzy.
Musk: Więc twoje wnioski są takie, że skalowanie danych i parametrów nie rozwiąże problemu? Zawsze natrafimy na ścianę, gdzie następna domena OOD łamie model?
Hsu: Niekoniecznie ściana, ale sufit. Krzywe empiryczne sugerują, że błąd generalizacji maleje w przybliżeniu logarytmicznie w zależności od przykładów treningowych. To sugeruje, że potrzebujesz wykładniczo więcej danych dla każdej nowej dystrybucji ogonowej. Dla wąskich verticali — powiedzmy, diagnostyki silników rakietowych — taniej jest wbudować symboliczne priorytety niż skalować bezmyślnie.
Musk: Co sprowadza nas z powrotem do hybryd neuro-symbolicznych. Daj LLM dostęp do małego zweryfikowanego rozwiązania, a następnie pozwól mu orkiestrując wywołania, gdy rozkład się zmienia.
Hsu: Dokładnie. LLM staje się meta-kontrolerem, który rozpoznaje, kiedy jest OOD i przekazuje zadanie do wyspecjalizowanego modułu. Ta architektura omija błąd „jednego wielkiego transformatora”.
Musk: W porządku, powiem zespołowi xAI, żeby przestali gonić za następnymi trylionami tokenów i zaczęli budować warstwę routingu. Dzięki, Steve.
Hsu: Zawsze. A jeśli potrzebujesz syntetycznych przypadków testowych OOD, moje laboratorium ma generator, który już oszukał GPT-5. Wyślę repo.

3,52K
Najlepsze
Ranking
Ulubione