Wszyscy zakładają, że pamięć ChatGPT to jakiś zaawansowany system RAG z bazami danych wektorowych i wyszukiwaniem semantycznym. Manthan to odwrócił. Rzeczywista architektura jest niemal rozczarowująco prosta: metadane sesji, które wygasają, jawne fakty przechowywane jako tekst, lekkie podsumowania czatu i przesuwane okno. Brak osadzeń. Brak wyszukiwania podobieństw. Brak pobierania na dużą skalę. Część interesująca? To wyjaśnia, dlaczego wydaje się to tak szybkie. Tradycyjne systemy RAG osadzają każdą wiadomość, przeprowadzają wyszukiwania podobieństw dla każdego zapytania, pobierają pełne konteksty. ChatGPT po prostu wstrzykuje wcześniej obliczone podsumowania bezpośrednio. Wymieniają szczegółowy kontekst historyczny na opóźnienie. To ta sama lekcja, która ciągle się pojawia w infrastrukturze AI: gdy kontrolujesz cały stos, starannie dobrana prostota często przewyższa skomplikowaną złożoność. OpenAI nie musi budować ogólnego systemu wyszukiwania. Muszą tylko mieć taki, który działa dla ChatGPT. Czterowarstwowa architektura (metadane sesji → przechowywane fakty → podsumowania rozmów → przesuwane okno) to w zasadzie ręcznie wykonana hierarchia pamięci. Każda warstwa ma różną trwałość i różne cele. Metadane sesji dostosowują się w czasie rzeczywistym. Fakty utrzymują się na zawsze. Podsumowania zapewniają ciągłość. Okno utrzymuje spójność. System pamięci Anthropic używa podobnego wzoru. Modele, które wydają się najbardziej osobiste, to nie te z najbardziej zaawansowanym wyszukiwaniem. To te, które przechowują odpowiednie rzeczy i wstrzykują je w odpowiednim czasie.