QA extractivo (el paradigma SQuAD): dado un documento y una pregunta, identifica el fragmento exacto de texto que responde la pregunta. Los modelos BERT ajustados destacan en esto — leen el documento, entienden la pregunta y resaltan la respuesta. Es rápido, preciso y verificable (la respuesta siempre es una cita directa). Pero solo puede responder preguntas cuyas respuestas aparecen textualmente en el documento.
El patrón moderno dominante: (1) el usuario hace una pregunta, (2) recupera documentos relevantes de una base de conocimiento usando búsqueda semántica, (3) incluye los documentos recuperados en el contexto del LLM, (4) el LLM genera una respuesta basada en el contexto recuperado. Esto combina la precisión de la recuperación con la fluidez de la generación. Los desafíos clave son la calidad de recuperación (encontrar los documentos correctos) y la fidelidad (generar respuestas que reflejen con precisión el material fuente).
La precisión de QA se mide de forma diferente para cada paradigma. QA extractivo usa exact match (EM) y F1 score contra fragmentos de respuesta de referencia. QA generativo es más difícil de evaluar automáticamente — existen múltiples formulaciones válidas para cualquier respuesta. RAGAS y frameworks similares evalúan QA basado en RAG en fidelidad (¿la respuesta coincide con la fuente?), relevancia (¿recuperaste los documentos correctos?) y calidad de respuesta. La evaluación humana sigue siendo el estándar de oro para QA generativo.