Musk: Apreciado. Y dime, ¿qué tan difícil sería entrenar un detector OOD ligero directamente en el espacio latente? ¿Algo que marque incoherencias semánticas antes de que el modelo alucine una solución? Hsu: Hemos prototipado eso. Puedes usar el aprendizaje contrastivo entre trayectorias en distribución y perturbadas sintéticamente en el flujo residual. Las capas tempranas muestran caídas de coherencia detectables, como una señal de "disonancia cognitiva", antes de que la salida diverja. Pero el verdadero desafío es la latencia. No puedes permitirte un pase completo hacia atrás solo para verificar la confianza. Musk: Entonces necesitamos un monitor en línea, algo que funcione en paralelo con el pase hacia adelante, tal vez una pequeña sonda conectada a activaciones intermedias? Hsu: Exactamente. Piensa en ello como un "sistema inmunológico cognitivo". Tenemos una sonda de 1B de parámetros que funciona a 1/10 de la latencia del modelo base y predice OODness con ~88% de AUC en nuestras pruebas de estrés. No es perfecto, pero es suficiente para activar protocolos de respaldo. Musk: Eso podría integrarse limpiamente con la capa de enrutamiento. El LLM intenta resolverlo; la sonda levanta una bandera; el sistema invoca el motor simbólico o pide aclaraciones. Cierra el ciclo. Hsu: Sí, y crucialmente, puedes registrar esos traspasos y usarlos para expandir la distribución de entrenamiento con el tiempo. Convierte los fallos OOD en señales de curación. No es solo robustez; es generalización adaptativa. Musk: Entonces el modelo aprende cuándo no confiar en sí mismo. Me gusta eso. Humildad por diseño. Hsu: [risas] Llámalo confianza limitada. El futuro no son modelos que lo saben todo, son modelos que conocen sus límites y tienen herramientas para trascenderlos. Musk: Bien, Steve. La próxima semana, quiero que ejecutes ese conjunto de pruebas sintéticas en nuestro último modelo base. Si seguimos siendo engañados por acertijos de física contrafactual, pivotamos duro hacia híbrido. Este diálogo puede haber sido generado por IA.
steve hsu
steve hsu10 ago, 20:06
Musk: Steve, la verdadera pregunta que sigo haciendo al equipo es si los LLMs de hoy pueden razonar cuando salen de la distribución de entrenamiento. Todos citan los prompts de cadena de pensamiento, pero eso podría ser solo imitación. Hsu: De acuerdo. Los últimos benchmarks muestran que incluso los modelos de nivel Grok4 se degradan drásticamente una vez que obligas a un cambio de dominio: el espacio latente simplemente no abarca la nueva modalidad. Musk: Entonces, ¿es más un problema de cobertura que un fallo de razonamiento? Hsu: En parte. Pero hay un problema más profundo. El único sesgo inductivo incorporado del transformador es el emparejamiento de patrones asociativos. Cuando el prompt está verdaderamente fuera de distribución, digamos, un rompecabezas simbólico cuyos tokens nunca co-ocurrieron en el entrenamiento, el modelo no tiene un previo estructural en el que apoyarse. Literalmente lanza monedas. Musk: Sin embargo, vemos un "grokking" emergente en tareas sintéticas. Zhong et al. mostraron que las cabezas de inducción pueden componer reglas que nunca fueron entrenadas explícitamente. ¿No parece eso razonamiento? Hsu: La composición te da una generalización limitada, pero las reglas aún tienen que estar dentro del alcance de la gramática de entrenamiento. Tan pronto como ajustas la semántica, cambias un solo operador en el rompecabezas, la precisión colapsa. Eso no es razonamiento robusto; es interpolación frágil. Musk: ¿No podría el aprendizaje por refuerzo solucionarlo? DRG-Sapphire utilizó GRPO sobre un modelo base de 7 B y obtuvo codificación de grado médico en notas clínicas, una tarea clásica OOD. Hsu: El problema es que el RL solo funciona después de que el modelo base ha asimilado suficiente conocimiento del dominio a través de un ajuste fino supervisado. Cuando el corpus de pre-entrenamiento es escaso, el RL solo alcanza un plateau. Así que el "razonamiento" sigue siendo parasitario en la densidad de conocimiento previo. Musk: Entonces, ¿tu conclusión es que escalar datos y parámetros no resolverá el problema? ¿Siempre chocaremos contra una pared donde el siguiente dominio OOD rompe el modelo? Hsu: No necesariamente una pared, sino un techo. Las curvas empíricas sugieren que el error de generalización decae aproximadamente de manera logarítmica con los ejemplos de entrenamiento. Eso implica que necesitas exponencialmente más datos para cada nueva distribución de cola. Para verticales estrechos, digamos, diagnósticos de motores de cohetes, es más barato incorporar priors simbólicos que escalar ciegamente. Musk: Lo que nos lleva de vuelta a los híbridos neuro-simbólicos. Dale al LLM acceso a un pequeño solucionador verificado, luego déjalo orquestar llamadas cuando la distribución cambie. Hsu: Exactamente. El LLM se convierte en un meta-controlador que reconoce cuándo está OOD y pasa a un módulo especializado. Esa arquitectura elude la falacia de "un gigante transformador". Musk: Está bien, le diré al equipo de xAI que deje de perseguir los próximos billones de tokens y comience a construir la capa de enrutamiento. Gracias, Steve. Hsu: En cualquier momento. Y si necesitas casos de prueba sintéticos OOD, mi laboratorio tiene un generador que ya ha engañado a GPT-5. Te enviaré el repositorio. Esta conversación con Elon podría ser generada por IA.
7.04K