QA extractif (le paradigme SQuAD) : étant donné un document et une question, identifier l'extrait exact du texte qui répond à la question. Les modèles BERT fine-tunés excellent à ça — ils lisent le document, comprennent la question, et surlignent la réponse. C'est rapide, précis et vérifiable (la réponse est toujours une citation directe). Mais ça ne peut répondre qu'aux questions dont les réponses apparaissent textuellement dans le document.
Le pattern moderne dominant : (1) l'utilisateur pose une question, (2) récupérer les documents pertinents d'une base de connaissances via la recherche sémantique, (3) inclure les documents récupérés dans le contexte du LLM, (4) le LLM génère une réponse basée sur le contexte récupéré. Ça combine la précision de la récupération avec la fluidité de la génération. Les défis clés sont la qualité de récupération (trouver les bons documents) et la fidélité (générer des réponses qui reflètent précisément le matériel source).
La précision du QA est mesurée différemment pour chaque paradigme. Le QA extractif utilise la correspondance exacte (EM) et le score F1 par rapport aux portions de réponse de référence. Le QA génératif est plus difficile à évaluer automatiquement — plusieurs formulations valides existent pour chaque réponse. RAGAS et des frameworks similaires évaluent le QA basé sur le RAG sur la fidélité (est-ce que la réponse correspond à la source ?), la pertinence (as-tu récupéré les bons documents ?) et la qualité de la réponse. L'évaluation humaine reste le standard de référence pour le QA génératif.