Mémoire : Définition et signification — Wiki IA

Les mécanismes qui permettent aux modèles d'IA de retenir et de rappeler des informations au-delà d'une seule conversation. Cela inclut la mémoire en contexte (utilisation de la fenêtre de contexte), la mémoire externe (RAG, bases de données vectorielles), la mémoire de conversation persistante (se souvenir des préférences de l'utilisateur entre les sessions) et la mémoire de travail (maintien de l'état pendant des tâches d'agent en plusieurs étapes). La mémoire est ce qui fait que l'IA ressemble à un collaborateur plutôt qu'à un outil sans état.

Pourquoi c’est important

Sans mémoire, chaque conversation IA repart de zéro. Vous répétez vos préférences, ré-expliquez votre base de code, re-décrivez votre projet. La mémoire est ce qui transforme un agent conversationnel en assistant — et c'est l'un des problèmes les plus difficiles à bien résoudre, équilibrant pertinence, vie privée, obsolescence et coûts de stockage.

En profondeur

La forme la plus simple de mémoire IA est la fenêtre de contexte elle-même — le modèle « se souvient » de tout ce que vous avez dit dans la conversation courante parce que tout est là dans l'entrée. Les premiers modèles avaient des fenêtres de contexte de 4 000 tokens (environ 3 000 mots), ce qui signifiait que les conversations « oubliaient » les messages précédents une fois qu'ils dépassaient cette limite. Les modèles d'aujourd'hui ont considérablement élargi cela : Claude prend en charge jusqu'à 200 000 tokens, Gemini 1.5 gère 1 million de tokens, et certains modèles vont encore plus loin. Mais la taille de la fenêtre de contexte et la mémoire utilisable ne sont pas la même chose. La recherche montre systématiquement que les modèles peinent avec l'information enfouie au milieu de contextes très longs (le problème du « perdu au milieu »), et bourrer la fenêtre de contexte coûte cher — vous payez pour chaque token à chaque appel API, donc un historique de conversation de 100 000 tokens coûte de l'argent réel à maintenir.

Court terme vs long terme

La distinction entre mémoire à court terme et à long terme en IA reflète la même distinction dans la cognition humaine, mais les implémentations sont assez différentes. La mémoire à court terme (aussi appelée mémoire de travail) est ce que le modèle retient pendant une seule session — la fenêtre de contexte, tout bloc-notes ou état qu'il maintient pendant une tâche en plusieurs étapes. La mémoire à long terme est l'information qui persiste entre les sessions : votre nom, vos préférences, les projets passés que vous avez discutés, les décisions que vous avez prises. La plupart des produits d'IA grand public offrent désormais une forme de mémoire à long terme. La fonctionnalité « Memory » de ChatGPT extrait des faits clés des conversations et les stocke comme des extraits de texte qui sont injectés dans les conversations futures. La mémoire de Claude fonctionne de manière similaire, avec la possibilité pour les utilisateurs de sauvegarder du contexte au niveau du projet. Ces systèmes utilisent typiquement une étape de synthèse — un modèle d'IA lit la conversation et extrait les éléments importants — plutôt que de stocker des transcriptions brutes, qui submergeraient rapidement la fenêtre de contexte.

Le RAG comme mémoire externe

Pour les applications qui doivent se souvenir de grands volumes d'informations — une base de code entière, la documentation d'une entreprise, des années d'interactions clients — la génération augmentée par récupération (RAG) sert de forme de mémoire externe. Au lieu de tout entasser dans la fenêtre de contexte, vous stockez les documents sous forme de plongements vectoriels dans une base de données et ne récupérez que les éléments pertinents au besoin. C'est ainsi que la plupart des assistants IA d'entreprise fonctionnent : quand vous posez une question, le système recherche dans sa base de connaissances, extrait les morceaux les plus pertinents et les fournit au modèle avec votre requête. Le modèle ne « se souvient » pas de toute la base de connaissances, mais il y a un accès à la demande, ce qui est fonctionnellement similaire. Le compromis est la latence et la pertinence — la recherche vectorielle ajoute 100 à 500 ms par requête, et la qualité de la réponse dépend entièrement du fait que l'étape de récupération ait trouvé les bons documents.

Les problèmes difficiles

La mémoire introduit des défis qui n'existent pas dans les systèmes d'IA sans état. L'obsolescence est le plus évident : si vous avez dit à Claude il y a six mois que vous travaillez sur un projet Python, mais que vous êtes depuis passé à Rust, cette mémoire obsolète devient trompeuse. La plupart des systèmes de mémoire n'ont pas de bon mécanisme pour expirer ou mettre à jour les faits stockés — ils accumulent de l'information mais l'élaguent rarement. La vie privée est un autre champ de mines : si une IA se souvient que vous avez mentionné un état de santé, une situation financière ou une stratégie commerciale confidentielle, cette information vit maintenant dans un système que vous ne contrôlez pas pleinement. Qui peut y accéder? Peut-elle être supprimée? Est-elle utilisée pour entraîner de futurs modèles? Ces questions expliquent pourquoi certains déploiements d'entreprise désactivent explicitement les fonctionnalités de mémoire. Puis il y a le problème de la cohérence : quand un modèle puise dans des mémoires de nombreuses conversations différentes, il peut produire des réponses qui sont techniquement informées par votre historique mais contextuellement confuses — mélangeant des détails de différents projets ou appliquant des préférences obsolètes à de nouvelles situations.

La suite pour la mémoire IA

La frontière de la recherche sur la mémoire IA se déplace vers des systèmes qui ne se contentent pas de stocker et de récupérer des faits mais organisent et mettent à jour activement leur compréhension au fil du temps. L'Infini-attention de Google et des techniques similaires visent à donner aux modèles transformers une forme de mémoire à long terme compressée au sein de l'architecture elle-même, plutôt que de s'appuyer sur des bases de données externes. Les systèmes de mémoire d'agents — utilisés par des cadres comme AutoGPT et les agents utilisant des outils de Claude — maintiennent un état structuré à travers des tâches en plusieurs étapes, suivant ce qu'ils ont fait, ce qu'ils ont appris et ce qui reste à faire. Et la personnalisation devient plus sophistiquée : au lieu de stocker des faits plats (« l'utilisateur préfère Python »), les futurs systèmes de mémoire construiront des modèles utilisateur plus riches capturant le style de communication, le niveau d'expertise, les schémas de prise de décision et le contexte de projet. L'objectif est une IA qui ne se souvient pas seulement de ce que vous avez dit — elle comprend qui vous êtes et comment travailler avec vous, conversation après conversation.

Mémoire