L'ancrage est la pratique consistant à lier les sorties d'un modèle à des informations externes vérifiables, et il existe parce que les modèles de langage ont une limitation architecturale fondamentale : ils ne savent pas ce qu'ils savent. Les données d'entraînement d'un modèle sont intégrées dans ses poids sous forme de patrons statistiques, pas comme une base de données de faits consultable. Il ne peut pas vérifier si une affirmation spécifique se trouve dans ses données d'entraînement ou vérifier une date contre une source fiable. L'ancrage compense cela en donnant au modèle l'accès à des données faisant autorité au moment de l'inférence, afin qu'il puisse baser ses réponses sur des preuves fournies plutôt que sur un rappel par correspondance de patrons.
La technique d'ancrage la plus courante en production aujourd'hui est la génération augmentée par la recherche (RAG). Le patron de base est simple : prenez la question de l'utilisateur, utilisez-la pour chercher dans une base de connaissances (généralement une base de données vectorielle avec des fragments de documents intégrés), récupérez les passages les plus pertinents, et incluez-les dans le contexte du modèle aux côtés de la question. Le modèle génère ensuite une réponse basée sur ces passages récupérés. Vertex AI de Google, Amazon Bedrock et la plupart des plateformes d'IA d'entreprise offrent des pipelines RAG en services gérés. L'idée clé est que vous transformez le travail du modèle de « rappeler des faits de l'entraînement » à « synthétiser une réponse à partir de documents fournis » — une tâche pour laquelle les modèles sont beaucoup plus fiables.
L'ancrage par recherche web adopte une approche différente. Au lieu de chercher dans une base de connaissances privée, le modèle interroge le web en direct et intègre les résultats dans sa réponse. Perplexity a construit tout son produit autour de cette idée. Les modèles Gemini de Google peuvent accéder directement à Google Search. La fonctionnalité de navigation de ChatGPT fait un travail similaire. L'avantage par rapport au RAG est la fraîcheur — l'ancrage par recherche web peut répondre à des questions sur des événements d'hier, alors qu'un système RAG n'est à jour que jusqu'à sa dernière mise à jour d'index. L'inconvénient est que le web lui-même contient de la désinformation, donc vous échangez une source d'erreur contre une autre.
Les exigences de citation sont une forme plus légère d'ancrage qui fonctionne au niveau du prompt. Quand vous dites à un modèle « Ne faites que des affirmations que vous pouvez attribuer aux documents fournis, et citez vos sources en ligne », vous ne lui donnez pas de nouvelles capacités — vous contraignez son comportement à rester plus proche du matériel vérifiable. Cela fonctionne étonnamment bien en pratique, surtout avec des modèles capables comme Claude ou GPT-4. Le modèle va souvent refuser de répondre ou signaler explicitement l'incertitude plutôt que de fabriquer une citation, parce que générer une fausse citation qui semble structurellement correcte est plus difficile que de simplement dire « Je n'ai pas cette information ». Cela dit, l'ancrage par citation n'est pas infaillible. Les modèles peuvent encore halluciner des citations qui semblent plausibles mais référencent la mauvaise section ou déforment ce qu'une source dit réellement.
Un piège pratique de l'ancrage est la dépendance excessive à la qualité de la recherche. Si votre pipeline RAG récupère des fragments non pertinents — parce que les embeddings n'ont pas capturé l'intention de la requête, ou que la stratégie de découpage a séparé un passage critique entre deux fragments — le modèle va ancrer sa réponse sur le mauvais matériel et produire une réponse confidemment erronée avec des citations. L'ancrage n'élimine pas l'hallucination ; il change le mode de défaillance. Au lieu que le modèle invente des faits de toutes pièces, il peut maintenant mal interpréter ou extrapoler excessivement à partir de sources réelles. Un bon ancrage nécessite une bonne recherche, ce qui signifie investir dans la qualité des embeddings, le dimensionnement des fragments, le reclassement et l'évaluation — pas simplement brancher une base de données vectorielle dans votre pipeline et considérer que c'est fait.