Réponse aux questions : Définition et signification — Wiki IA

Un système qui répond à des questions posées en langage naturel. Le QA extractif trouve la portion de réponse dans un document donné (« Selon le paragraphe 3, la réponse est... »). Le QA génératif synthétise une réponse à partir d'une ou plusieurs sources. Le QA en domaine ouvert répond à n'importe quelle question sans document spécifique. Le QA basé sur le RAG récupère des documents pertinents et génère des réponses à partir d'eux.

Pourquoi c'est important

La réponse aux questions est le pattern d'interaction fondamental pour les assistants IA. Chaque chatbot, chaque base de connaissances d'entreprise, chaque bot de support client est essentiellement un système de QA. Comprendre les différents paradigmes de QA (extractif, génératif, augmenté par récupération) t'aide à choisir la bonne architecture pour ton application et à fixer des attentes réalistes sur la précision.

En profondeur

QA extractif (le paradigme SQuAD) : étant donné un document et une question, identifier l'extrait exact du texte qui répond à la question. Les modèles BERT fine-tunés excellent à ça — ils lisent le document, comprennent la question, et surlignent la réponse. C'est rapide, précis et vérifiable (la réponse est toujours une citation directe). Mais ça ne peut répondre qu'aux questions dont les réponses apparaissent textuellement dans le document.

QA basé sur le RAG

Le pattern moderne dominant : (1) l'utilisateur pose une question, (2) récupérer les documents pertinents d'une base de connaissances via la recherche sémantique, (3) inclure les documents récupérés dans le contexte du LLM, (4) le LLM génère une réponse basée sur le contexte récupéré. Ça combine la précision de la récupération avec la fluidité de la génération. Les défis clés sont la qualité de récupération (trouver les bons documents) et la fidélité (générer des réponses qui reflètent précisément le matériel source).

Évaluation

La précision du QA est mesurée différemment pour chaque paradigme. Le QA extractif utilise la correspondance exacte (EM) et le score F1 par rapport aux portions de réponse de référence. Le QA génératif est plus difficile à évaluer automatiquement — plusieurs formulations valides existent pour chaque réponse. RAGAS et des frameworks similaires évaluent le QA basé sur le RAG sur la fidélité (est-ce que la réponse correspond à la source ?), la pertinence (as-tu récupéré les bons documents ?) et la qualité de la réponse. L'évaluation humaine reste le standard de référence pour le QA génératif.