Musk: Doceniam to. Powiedz mi—jak trudne byłoby wytrenowanie lekkiego detektora OOD bezpośrednio w przestrzeni latentnej? Coś, co sygnalizuje semantyczną niespójność, zanim model zacznie halucynować rozwiązanie? Hsu: Zrobiliśmy prototyp. Możesz użyć uczenia kontrastowego między trajektoriami w obrębie rozkładu a syntetycznie zaburzonymi trajektoriami w strumieniu resztkowym. Wczesne warstwy pokazują rzeczywiście wykrywalne spadki spójności—jak sygnał „dysonansu poznawczego”—zanim wyjście się rozdzieli. Ale prawdziwym wyzwaniem jest opóźnienie. Nie możesz sobie pozwolić na pełne przejście wsteczne tylko po to, aby sprawdzić pewność. Musk: Więc potrzebujemy monitorowania online—czegoś, co działa równolegle z przejściem do przodu, może małego czujnika podłączonego do pośrednich aktywacji? Hsu: Dokładnie. Pomyśl o tym jak o "poznawczym systemie odpornościowym." Mamy czujnik o 1 miliardzie parametrów, który działa z 1/10 opóźnienia modelu bazowego i przewiduje OODness z ~88% AUC w naszych testach stresowych. To nie jest idealne, ale wystarczające, aby uruchomić protokoły awaryjne. Musk: To mogłoby się płynnie zintegrować z warstwą routingu. LLM próbuje to rozwiązać; czujnik podnosi flagę; system wywołuje silnik symboliczny lub prosi o wyjaśnienie. Zamykamy pętlę. Hsu: Tak—i co ważne, możesz rejestrować te przekazy i używać ich do rozszerzania rozkładu treningowego w czasie. Przekształca to niepowodzenia OOD w sygnały kuracji. To nie tylko odporność; to adaptacyjna generalizacja. Musk: Wtedy model uczy się, kiedy nie ufać sobie. Podoba mi się to. Pokora z założenia. Hsu: [śmiech] Nazwij to ograniczoną pewnością. Przyszłość to nie modele, które wiedzą wszystko— to modele, które znają swoje ograniczenia i mają narzędzia, aby je przekraczać. Musk: Dobrze, Steve. W przyszłym tygodniu chcę, abyś uruchomił tę syntetyczną suite testową na naszym najnowszym modelu bazowym. Jeśli nadal będziemy oszukiwani przez kontrfaktyczne zagadki fizyczne, mocno przechodzimy do hybrydy. Ten dialog mógł być wygenerowany przez AI.
steve hsu
steve hsu10 sie, 20:06
Musk: Steve, prawdziwe pytanie, które ciągle zadaję zespołowi, to czy dzisiejsze LLM-y potrafią rozumować, gdy opuszczają rozkład treningowy. Wszyscy przytaczają prompty łańcucha myślenia, ale to może być tylko naśladowanie. Hsu: Zgadzam się. Najnowsze benchmarki pokazują, że nawet modele na poziomie Grok4 gwałtownie degradują, gdy zmusisz je do zmiany domeny — przestrzeń latentna po prostu nie obejmuje nowej modalności. Musk: Więc to bardziej problem pokrycia niż błąd w rozumowaniu? Hsu: Częściowo. Ale jest głębszy problem. Wbudowany w transformatorze indukcyjny bias to tylko dopasowywanie wzorców asocjacyjnych. Gdy prompt jest naprawdę poza rozkładem — powiedzmy, symboliczna zagadka, której tokeny nigdy nie występowały razem w treningu — model nie ma strukturalnego priorytetu, na który mógłby się oprzeć. Dosłownie rzuca monetami. Musk: A jednak widzimy pojawiające się „grokowanie” w syntetycznych zadaniach. Zhong i in. pokazali, że głowy indukcyjne mogą komponować zasady, których nigdy nie były explicite trenowane. Czy to nie wygląda jak rozumowanie? Hsu: Kompozycja daje ograniczoną generalizację, ale zasady wciąż muszą leżeć w zakresie gramatyki treningowej. Gdy tylko zmienisz semantykę — zmienisz pojedynczy operator w zagadce — dokładność się załamuje. To nie jest solidne rozumowanie; to krucha interpolacja. Musk: Czy nie można tego naprawić za pomocą uczenia przez wzmocnienie? DRG-Sapphire użył GRPO na bazowym modelu 7 B i uzyskał kodowanie na poziomie lekarza w notatkach klinicznych, klasyczne zadanie OOD. Hsu: Problem polega na tym, że RL działa tylko po tym, jak bazowy model przyswoił wystarczającą wiedzę z danej dziedziny dzięki nadzorowanemu fine-tuningowi. Gdy zbiór danych do wstępnego treningu jest rzadki, samo RL osiąga plateau. Więc „rozumowanie” wciąż jest pasożytnicze na gęstości wcześniejszej wiedzy. Musk: Więc twoje wnioski są takie, że skalowanie danych i parametrów nie rozwiąże problemu? Zawsze natrafimy na ścianę, gdzie następna domena OOD łamie model? Hsu: Niekoniecznie ściana, ale sufit. Krzywe empiryczne sugerują, że błąd generalizacji maleje w przybliżeniu logarytmicznie w zależności od przykładów treningowych. To sugeruje, że potrzebujesz wykładniczo więcej danych dla każdej nowej dystrybucji ogonowej. Dla wąskich verticali — powiedzmy, diagnostyki silników rakietowych — taniej jest wbudować symboliczne priorytety niż skalować bezmyślnie. Musk: Co sprowadza nas z powrotem do hybryd neuro-symbolicznych. Daj LLM dostęp do małego zweryfikowanego rozwiązania, a następnie pozwól mu orkiestrując wywołania, gdy rozkład się zmienia. Hsu: Dokładnie. LLM staje się meta-kontrolerem, który rozpoznaje, kiedy jest OOD i przekazuje zadanie do wyspecjalizowanego modułu. Ta architektura omija błąd „jednego wielkiego transformatora”. Musk: W porządku, powiem zespołowi xAI, żeby przestali gonić za następnymi trylionami tokenów i zaczęli budować warstwę routingu. Dzięki, Steve. Hsu: Zawsze. A jeśli potrzebujesz syntetycznych przypadków testowych OOD, moje laboratorium ma generator, który już oszukał GPT-5. Wyślę repo.
7,05K