QA Extrativo (o paradigma SQuAD): dado um documento e uma pergunta, identificar o trecho exato de texto que responde à pergunta. Modelos BERT ajustados se destacam nisso — eles leem o documento, entendem a pergunta e destacam a resposta. Isso é rápido, preciso e verificável (a resposta é sempre uma citação direta). Mas só pode responder perguntas cujas respostas aparecem literalmente no documento.
O padrão moderno dominante: (1) usuário faz uma pergunta, (2) recupera documentos relevantes de uma base de conhecimento usando busca semântica, (3) inclui os documentos recuperados no contexto do LLM, (4) o LLM gera uma resposta baseada no contexto recuperado. Isso combina a precisão da recuperação com a fluência da geração. Os principais desafios são a qualidade da recuperação (encontrar os documentos certos) e a fidelidade (gerar respostas que reflitam com precisão o material de origem).
A precisão do QA é medida de forma diferente para cada paradigma. QA extrativo usa correspondência exata (EM) e pontuação F1 contra trechos de resposta de referência. QA generativo é mais difícil de avaliar automaticamente — múltiplas formulações válidas existem para qualquer resposta. RAGAS e frameworks similares avaliam QA baseado em RAG quanto à fidelidade (a resposta corresponde à fonte?), relevância (você recuperou os documentos certos?) e qualidade da resposta. Avaliação humana continua sendo o padrão ouro para QA generativo.