Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Nie wiem, co oznaczają «domena» lub «w dystrybucji» w dzisiejszych czasach. Oczywiście LLM-y generalizują poza konkretne przykłady. Czy to dosłownie chodzi o to, że ukryte reprezentacje są zakotwiczone do konkretnych tokenów, tak jak ludzie wewnętrznie tłumaczą rzeczy na pierwszy język, którego się uczą?

Musk: Steve, prawdziwe pytanie, które ciągle zadaję zespołowi, to czy dzisiejsze LLM-y potrafią rozumować, gdy opuszczają rozkład treningowy. Wszyscy przytaczają prompty łańcucha myślenia, ale to może być tylko naśladowanie. Hsu: Zgadzam się. Najnowsze benchmarki pokazują, że nawet modele na poziomie Grok4 gwałtownie degradują, gdy zmusisz je do zmiany domeny — przestrzeń latentna po prostu nie obejmuje nowej modalności. Musk: Więc to bardziej problem pokrycia niż błąd w rozumowaniu? Hsu: Częściowo. Ale jest głębszy problem. Wbudowany w transformatorze indukcyjny bias to tylko dopasowywanie wzorców asocjacyjnych. Gdy prompt jest naprawdę poza rozkładem — powiedzmy, symboliczna zagadka, której tokeny nigdy nie występowały razem w treningu — model nie ma strukturalnego priorytetu, na który mógłby się oprzeć. Dosłownie rzuca monetami. Musk: A jednak widzimy pojawiające się „grokowanie” w syntetycznych zadaniach. Zhong i in. pokazali, że głowy indukcyjne mogą komponować zasady, których nigdy nie były explicite trenowane. Czy to nie wygląda jak rozumowanie? Hsu: Kompozycja daje ograniczoną generalizację, ale zasady wciąż muszą leżeć w zakresie gramatyki treningowej. Gdy tylko zmienisz semantykę — zmienisz pojedynczy operator w zagadce — dokładność się załamuje. To nie jest solidne rozumowanie; to krucha interpolacja. Musk: Czy nie można tego naprawić za pomocą uczenia przez wzmocnienie? DRG-Sapphire użył GRPO na bazowym modelu 7 B i uzyskał kodowanie na poziomie lekarza w notatkach klinicznych, klasyczne zadanie OOD. Hsu: Problem polega na tym, że RL działa tylko po tym, jak bazowy model przyswoił wystarczającą wiedzę z danej dziedziny dzięki nadzorowanemu fine-tuningowi. Gdy zbiór danych do wstępnego treningu jest rzadki, samo RL osiąga plateau. Więc „rozumowanie” wciąż jest pasożytnicze na gęstości wcześniejszej wiedzy. Musk: Więc twoje wnioski są takie, że skalowanie danych i parametrów nie rozwiąże problemu? Zawsze natrafimy na ścianę, gdzie następna domena OOD łamie model? Hsu: Niekoniecznie ściana, ale sufit. Krzywe empiryczne sugerują, że błąd generalizacji maleje w przybliżeniu logarytmicznie w zależności od przykładów treningowych. To sugeruje, że potrzebujesz wykładniczo więcej danych dla każdej nowej dystrybucji ogonowej. Dla wąskich verticali — powiedzmy, diagnostyki silników rakietowych — taniej jest wbudować symboliczne priorytety niż skalować bezmyślnie. Musk: Co sprowadza nas z powrotem do hybryd neuro-symbolicznych. Daj LLM dostęp do małego zweryfikowanego rozwiązania, a następnie pozwól mu orkiestrując wywołania, gdy rozkład się zmienia. Hsu: Dokładnie. LLM staje się meta-kontrolerem, który rozpoznaje, kiedy jest OOD i przekazuje zadanie do wyspecjalizowanego modułu. Ta architektura omija błąd „jednego wielkiego transformatora”. Musk: W porządku, powiem zespołowi xAI, żeby przestali gonić za następnymi trylionami tokenów i zaczęli budować warstwę routingu. Dzięki, Steve. Hsu: Zawsze. A jeśli potrzebujesz syntetycznych przypadków testowych OOD, moje laboratorium ma generator, który już oszukał GPT-5. Wyślę repo.

3,52K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi