Iedereen gaat ervan uit dat het geheugen van ChatGPT een geavanceerd RAG-systeem is met vector databases en semantische zoekopdrachten. Manthan heeft het omgekeerd geanalyseerd. De werkelijke architectuur is bijna teleurstellend eenvoudig: sessiemetadata die verloopt, expliciete feiten opgeslagen als tekst, lichte chat-samenvattingen en een glijdend venster. Geen embeddings. Geen gelijkeniszoekopdrachten. Geen retrieval op grote schaal. Het interessante deel? Dit verklaart waarom het zo snel aanvoelt. Traditionele RAG-systemen embedden elk bericht, voeren gelijkeniszoekopdrachten uit op elke query, trekken volledige contexten. ChatGPT injecteert gewoon vooraf berekende samenvattingen direct. Ze ruilen gedetailleerde historische context in voor latentie. Dit is dezelfde les die steeds weer opduikt in AI-infrastructuur: wanneer je de hele stack controleert, presteert gecureerde eenvoud vaak beter dan geavanceerde complexiteit. OpenAI hoeft geen algemeen retrievalsysteem te bouwen. Ze hebben alleen een nodig dat werkt voor ChatGPT. De vierlaagse architectuur (sessiemetadata → opgeslagen feiten → conversatiesamenvattingen → glijdend venster) is in wezen een handgemaakte geheugenhiërarchie. Elke laag heeft verschillende persistentie en verschillende doeleinden. Sessiemetadata past zich in real-time aan. Feiten blijven voor altijd bestaan. Samenvattingen bieden continuïteit. Het venster behoudt samenhang. Het geheugensysteem van Anthropic gebruikt een vergelijkbaar patroon. De modellen die het meest persoonlijk aanvoelen, zijn niet de modellen met de meest geavanceerde retrieval. Het zijn de modellen die de juiste dingen opslaan en ze op het juiste moment injecteren.