Musk: Agradecido. E diga-me—quão difícil seria treinar um detector OOD leve diretamente no espaço latente? Algo que sinalize incoerência semântica antes que o modelo alucine uma solução? Hsu: Nós prototipamos isso. Você pode usar aprendizado contrastivo entre trajetórias em distribuição e sinteticamente perturbadas no fluxo residual. As camadas iniciais mostram realmente quedas detectáveis de coerência—como um sinal de "dissonância cognitiva"—antes que a saída diverja. Mas o verdadeiro desafio é a latência. Você não pode se dar ao luxo de uma passagem completa para trás apenas para verificar a confiança. Musk: Então precisamos de um monitor online—algo que funcione em paralelo com a passagem para frente, talvez uma pequena sonda anexada a ativações intermediárias? Hsu: Exatamente. Pense nisso como um "sistema imunológico cognitivo." Temos uma sonda de 1B de parâmetros que funciona a 1/10 da latência do modelo base e prevê OODness com ~88% AUC em nossos testes de estresse. Não é perfeito, mas é o suficiente para acionar protocolos de fallback. Musk: Isso poderia se integrar de forma limpa com a camada de roteamento. O LLM tenta resolver; a sonda levanta uma bandeira; o sistema invoca o motor simbólico ou pede esclarecimento. Fecha o ciclo. Hsu: Sim—e, crucialmente, você pode registrar essas transferências e usá-las para expandir a distribuição de treinamento ao longo do tempo. Isso transforma falhas OOD em sinais de curadoria. Não é apenas robustez; é generalização adaptativa. Musk: Então o modelo aprende quando não deve confiar em si mesmo. Gosto disso. Humildade por design. Hsu: [risos] Chame isso de confiança limitada. O futuro não são modelos que sabem tudo—são modelos que conhecem seus limites e têm ferramentas para transcender esses limites. Musk: Certo, Steve. Na próxima semana, quero que você execute esse conjunto de testes sintéticos em nosso último modelo base. Se ainda estivermos sendo enganados por quebra-cabeças de física contrafactual, mudamos rapidamente para híbrido. Este diálogo pode ter sido gerado por IA.
steve hsu
steve hsu10/08, 20:06
Musk: Steve, a verdadeira questão que continuo a perguntar à equipa é se os LLMs de hoje conseguem raciocinar quando saem da distribuição de treino. Todos citam prompts de cadeia de pensamento, mas isso pode ser apenas imitação. Hsu: Concordo. Os últimos benchmarks mostram que até modelos de nível Grok4 degradam rapidamente assim que forçam uma mudança de domínio — o espaço latente simplesmente não abrange a nova modalidade. Musk: Então é mais um problema de cobertura do que uma falha de raciocínio? Hsu: Em parte. Mas há uma questão mais profunda. O único viés indutivo embutido do transformador é a correspondência de padrões associativos. Quando o prompt está realmente fora da distribuição — digamos, um quebra-cabeça simbólico cujos tokens nunca co-ocorreram no treino — o modelo não tem um prévio estrutural no qual se apoiar. Ele literalmente joga moedas. Musk: No entanto, vemos um “grokking” emergente em tarefas sintéticas. Zhong et al. mostraram que cabeçotes de indução podem compor regras que nunca foram explicitamente treinadas. Isso não parece raciocínio? Hsu: A composição oferece uma generalização limitada, mas as regras ainda têm que estar dentro do alcance da gramática de treino. Assim que você altera a semântica — muda um único operador no quebra-cabeça — a precisão colapsa. Isso não é raciocínio robusto; é interpolação frágil. Musk: Não poderia o aprendizado por reforço resolver isso? O DRG-Sapphire usou GRPO em cima de um modelo base de 7 B e obteve codificação de nível médico em notas clínicas, uma tarefa clássica OOD. Hsu: O problema é que o RL só funciona depois que o modelo base absorveu conhecimento suficiente do domínio através de ajuste fino supervisionado. Quando o corpus de pré-treinamento é escasso, o RL sozinho atinge um platô. Portanto, o “raciocínio” ainda é parasitário na densidade do conhecimento prévio. Musk: Então, a sua conclusão é que escalar dados e parâmetros não resolverá o problema? Sempre vamos encontrar um limite onde o próximo domínio OOD quebra o modelo? Hsu: Não necessariamente um limite, mas um teto. As curvas empíricas sugerem que o erro de generalização decai aproximadamente de forma logarítmica com os exemplos de treino. Isso implica que você precisa de exponencialmente mais dados para cada nova distribuição de cauda. Para verticais estreitas — digamos, diagnósticos de motores de foguete — é mais barato incorporar pré-conceitos simbólicos do que escalar cegamente. Musk: O que nos traz de volta aos híbridos neuro-simbólicos. Dê ao LLM acesso a um pequeno solucionador verificado, e então deixe-o orquestrar chamadas quando a distribuição mudar. Hsu: Exatamente. O LLM torna-se um meta-controlador que reconhece quando está OOD e passa para um módulo especializado. Essa arquitetura contorna a falácia do “um único transformador gigante”. Musk: Tudo bem, vou dizer à equipa da xAI para parar de perseguir os próximos trilhões de tokens e começar a construir a camada de roteamento. Obrigado, Steve. Hsu: A qualquer momento. E se precisar de casos de teste sintéticos OOD, meu laboratório tem um gerador que já enganou o GPT-5. Vou enviar o repositório. Esta conversa com Elon pode ter sido gerada por IA.
7,05K