Resposta a Perguntas: Definição e significado — Wiki de IA

Um sistema que responde perguntas formuladas em linguagem natural. QA extrativo encontra o trecho da resposta dentro de um documento dado ("De acordo com o parágrafo 3, a resposta é..."). QA generativo sintetiza uma resposta a partir de uma ou mais fontes. QA de domínio aberto responde qualquer pergunta sem um documento específico. QA baseado em RAG recupera documentos relevantes e gera respostas a partir deles.

Por que isso importa

Resposta a perguntas é o padrão fundamental de interação para assistentes de IA. Todo chatbot, toda base de conhecimento empresarial, todo bot de suporte ao cliente é essencialmente um sistema de QA. Entender os diferentes paradigmas de QA (extrativo, generativo, com retrieval-augmented) ajuda a escolher a arquitetura certa para sua aplicação e definir expectativas realistas sobre a precisão.

Em profundidade

QA Extrativo (o paradigma SQuAD): dado um documento e uma pergunta, identificar o trecho exato de texto que responde à pergunta. Modelos BERT ajustados se destacam nisso — eles leem o documento, entendem a pergunta e destacam a resposta. Isso é rápido, preciso e verificável (a resposta é sempre uma citação direta). Mas só pode responder perguntas cujas respostas aparecem literalmente no documento.

QA Baseado em RAG

O padrão moderno dominante: (1) usuário faz uma pergunta, (2) recupera documentos relevantes de uma base de conhecimento usando busca semântica, (3) inclui os documentos recuperados no contexto do LLM, (4) o LLM gera uma resposta baseada no contexto recuperado. Isso combina a precisão da recuperação com a fluência da geração. Os principais desafios são a qualidade da recuperação (encontrar os documentos certos) e a fidelidade (gerar respostas que reflitam com precisão o material de origem).

Avaliação

A precisão do QA é medida de forma diferente para cada paradigma. QA extrativo usa correspondência exata (EM) e pontuação F1 contra trechos de resposta de referência. QA generativo é mais difícil de avaliar automaticamente — múltiplas formulações válidas existem para qualquer resposta. RAGAS e frameworks similares avaliam QA baseado em RAG quanto à fidelidade (a resposta corresponde à fonte?), relevância (você recuperou os documentos certos?) e qualidade da resposta. Avaliação humana continua sendo o padrão ouro para QA generativo.