Todo el mundo asume que la memoria de ChatGPT es un sistema RAG sofisticado con bases de datos vectoriales y búsqueda semántica. Manthan lo ingenió a la inversa. La arquitectura real es casi decepcionantemente simple: metadatos de sesión que expiran, hechos explícitos almacenados como texto, resúmenes de chat ligeros y una ventana deslizante. Sin embeddings. Sin búsqueda de similitud. Sin recuperación a gran escala. ¿La parte interesante? Esto explica por qué se siente tan rápido. Los sistemas RAG tradicionales incrustan cada mensaje, realizan búsquedas de similitud en cada consulta, extraen contextos completos. ChatGPT simplemente inyecta resúmenes precomputados directamente. Están intercambiando un contexto histórico detallado por latencia. Esta es la misma lección que sigue surgiendo en la infraestructura de IA: cuando controlas toda la pila, la simplicidad curada a menudo supera a la complejidad sofisticada. OpenAI no necesita construir un sistema de recuperación general. Solo necesita uno que funcione para ChatGPT. La arquitectura de cuatro capas (metadatos de sesión → hechos almacenados → resúmenes de conversación → ventana deslizante) es básicamente una jerarquía de memoria hecha a mano. Cada capa tiene diferente persistencia y diferentes propósitos. Los metadatos de sesión se adaptan en tiempo real. Los hechos persisten para siempre. Los resúmenes proporcionan continuidad. La ventana mantiene la coherencia. El sistema de memoria de Anthropic utiliza un patrón similar. Los modelos que se sienten más personales no son los que tienen la recuperación más sofisticada. Son aquellos que almacenan las cosas correctas e inyectan en el momento adecuado.