Respuesta a Preguntas: Definición y significado — Wiki de IA

Un sistema que responde preguntas formuladas en lenguaje natural. QA extractivo encuentra el fragmento de respuesta dentro de un documento dado ("Según el párrafo 3, la respuesta es..."). QA generativo sintetiza una respuesta a partir de una o más fuentes. QA de dominio abierto responde cualquier pregunta sin un documento específico. QA basado en RAG recupera documentos relevantes y genera respuestas a partir de ellos.

Por qué importa

La respuesta a preguntas es el patrón de interacción fundamental para los asistentes de IA. Cada chatbot, cada base de conocimiento empresarial, cada bot de soporte al cliente es esencialmente un sistema QA. Entender los diferentes paradigmas de QA (extractivo, generativo, con recuperación aumentada) te ayuda a elegir la arquitectura correcta para tu aplicación y establecer expectativas realistas sobre la precisión.

En profundidad

QA extractivo (el paradigma SQuAD): dado un documento y una pregunta, identifica el fragmento exacto de texto que responde la pregunta. Los modelos BERT ajustados destacan en esto — leen el documento, entienden la pregunta y resaltan la respuesta. Es rápido, preciso y verificable (la respuesta siempre es una cita directa). Pero solo puede responder preguntas cuyas respuestas aparecen textualmente en el documento.

QA basado en RAG

El patrón moderno dominante: (1) el usuario hace una pregunta, (2) recupera documentos relevantes de una base de conocimiento usando búsqueda semántica, (3) incluye los documentos recuperados en el contexto del LLM, (4) el LLM genera una respuesta basada en el contexto recuperado. Esto combina la precisión de la recuperación con la fluidez de la generación. Los desafíos clave son la calidad de recuperación (encontrar los documentos correctos) y la fidelidad (generar respuestas que reflejen con precisión el material fuente).

Evaluación

La precisión de QA se mide de forma diferente para cada paradigma. QA extractivo usa exact match (EM) y F1 score contra fragmentos de respuesta de referencia. QA generativo es más difícil de evaluar automáticamente — existen múltiples formulaciones válidas para cualquier respuesta. RAGAS y frameworks similares evalúan QA basado en RAG en fidelidad (¿la respuesta coincide con la fuente?), relevancia (¿recuperaste los documentos correctos?) y calidad de respuesta. La evaluación humana sigue siendo el estándar de oro para QA generativo.