DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Tout le monde suppose que la mémoire de ChatGPT est un système RAG sophistiqué avec des bases de données vectorielles et une recherche sémantique. Manthan l'a rétro-ingénierie. L'architecture réelle est presque décevante de simplicité : des métadonnées de session qui expirent, des faits explicites stockés sous forme de texte, des résumés de chat légers et une fenêtre glissante. Pas d'embeddings. Pas de recherche de similarité. Pas de récupération à grande échelle. La partie intéressante ? Cela explique pourquoi cela semble si rapide. Les systèmes RAG traditionnels intègrent chaque message, effectuent des recherches de similarité sur chaque requête, tirent des contextes complets. ChatGPT injecte simplement des résumés pré-calculés directement. Ils échangent un contexte historique détaillé contre la latence. C'est la même leçon qui continue d'émerger dans l'infrastructure de l'IA : lorsque vous contrôlez l'ensemble de la pile, la simplicité soigneusement choisie surpasse souvent la complexité sophistiquée. OpenAI n'a pas besoin de construire un système de récupération général. Ils ont juste besoin d'un qui fonctionne pour ChatGPT. L'architecture à quatre couches (métadonnées de session → faits stockés → résumés de conversation → fenêtre glissante) est essentiellement une hiérarchie de mémoire faite à la main. Chaque couche a une persistance différente et des objectifs différents. Les métadonnées de session s'adaptent en temps réel. Les faits persistent pour toujours. Les résumés fournissent une continuité. La fenêtre maintient la cohérence. Le système de mémoire d'Anthropic utilise un schéma similaire. Les modèles qui semblent les plus personnels ne sont pas ceux avec la récupération la plus sophistiquée. Ce sont ceux qui stockent les bonnes choses et les injectent au bon moment.

Meilleurs

Classement

Favoris