Alla antar att ChatGPT:s minne är något sofistikerat RAG-system med vektordatabaser och semantisk sökning. Manthan bakåtkonstruerade det. Den faktiska arkitekturen är nästan besvikande enkel: sessionsmetadata som går ut, explicita fakta lagrade som text, lättviktiga chattsammanfattningar och ett glidande fönster. Inga inbäddningar. Ingen likhetssökning. Ingen utvinning i stor skala. Det intressanta? Det förklarar varför det känns så snabbt. Traditionella RAG-system bäddar in varje meddelande, kör likhetssökningar på varje fråga och hämtar fullständiga kontexter. ChatGPT injicerar bara förberäknade sammanfattningar direkt. De byter detaljerad historisk kontext mot latens. Detta är samma lärdom som ständigt dyker upp i AI-infrastrukturen: när du kontrollerar hela stacken överträffar kurerad enkelhet ofta sofistikerad komplexitet. OpenAI behöver inte bygga ett allmänt återvinningssystem. De behöver bara en som fungerar för ChatGPT. Den fyrlagersarkitekturen (sessionsmetadata → lagrade fakta → konversationssammanfattningar → glidande fönster) är i grunden en handgjord minneshierarki. Varje lager har olika beständighet och olika syften. Sessionsmetadata anpassar sig i realtid. Fakta består för evigt. Sammanfattningar ger kontinuitet. Fönstret behåller sammanhanget. Anthropics minnessystem använder ett liknande mönster. De modeller som känns mest personliga är inte de med den mest sofistikerade hämtningen. Det är de som lagrar rätt saker och injicerar dem vid rätt tidpunkt.