Todo mundo assume que a memória do ChatGPT é algum sistema sofisticado RAG com bancos de dados vetoriais e busca semântica. Manthan fez engenharia reversa. A arquitetura em si é quase decepcionantemente simples: metadados de sessão que expiram, fatos explícitos armazenados como texto, resumos leves de chat e uma janela deslizante. Sem embeddings. Sem busca por similaridade. Sem coleta em larga escala. A parte interessante? Isso explica por que parece tão rápido. Sistemas RAG tradicionais incorporam todas as mensagens, executam buscas de similaridade em cada consulta, extraem contextos completos. O ChatGPT simplesmente injeta resumos pré-computados diretamente. Eles trocam contexto histórico detalhado por latência. Essa é a mesma lição que continua surgindo em toda a infraestrutura de IA: quando você controla toda a pilha, a simplicidade curada muitas vezes supera a complexidade sofisticada. A OpenAI não precisa construir um sistema geral de recuperação. Eles só precisam de um que funcione para o ChatGPT. A arquitetura de quatro camadas (metadados de sessão → fatos armazenados → resumos de conversas → janela deslizante) é basicamente uma hierarquia de memória feita à mão. Cada camada tem persistência e propósitos diferentes. Os metadados da sessão se adaptam em tempo real. Os fatos persistem para sempre. Resumos fornecem continuidade. A janela mantém a coerência. O sistema de memória do Anthropic usa um padrão semelhante. Os modelos que parecem mais pessoais não são os que têm a recuperação mais sofisticada. São eles que armazenam as coisas certas e as injetam na hora certa.