Pratik R publicou esta semana no Towards Data Science um harness de avaliação de 12 métricas para agentes de IA em produção, tirado do que o autor descreve como mais de 100 deploys enterprise. É o playbook de um praticante e não um padrão canônico — e justamente por isso vale destacar: os limiares são concretos o bastante para serem levados, e o enquadramento dos modos de falha nomeia categorias que a maioria das suítes de benchmark ainda contorna. O harness é agrupado em quatro: retrieval, generation, comportamento de agente, e custo/latência de produção. A história de origem é mais honesta que a média: um compliance officer de um cliente de saúde perguntou "como vocês sabem que o seu agente não está alucinando sintomas de paciente" e o time tinha unit tests, integration tests, e um modelo que se saía lindamente no dataset de demo — mas não tinha como medir taxa de alucinação, fidelidade ao contexto, ou precisão de seleção de ferramentas no tráfego vivo.

Os limiares concretos são a parte para copiar. Retrieval (4 métricas): context relevance acima de 0,85 em top-10 chunks, context recall acima de 0,90 em consultas benchmark rotuladas, context precision acima de 0,80, latência de retrieval abaixo de 200ms em p95. Generation (3): answer faithfulness acima de 0,95 contra o contexto recuperado, answer relevance acima de 0,90, taxa de alucinação abaixo de 2%. Agent (3): precisão de seleção de ferramenta acima de 0,92, sucesso de execução de ferramenta acima de 0,98, coerência multi-etapas acima de 0,85. Produção (2): custo abaixo de US$ 0,05 por query típica, latência p99 end-to-end abaixo de 3 segundos. A maioria é pontuada por um avaliador LLM-as-judge — esse é o caveat de carga do artigo. LLM-as-judge tem problemas conhecidos de confiabilidade nas métricas que mais importam, especialmente em detecção de alucinação onde o modelo juiz e o modelo agente podem compartilhar pontos cegos, e em fidelidade de resposta onde o juiz pode classificar como fiel algo que um especialista no domínio não classificaria. O framework precisa ser combinado com spot-checks humanos nas fronteiras dos limiares, não seguido cegamente.

A leitura ecossistêmica cai contra o vazio editorial em avaliação de agentes. Labs frontier publicam sobre benchmarks acadêmicos saturados (HELM, AgentBench, MMLU, GAIA) que testam capacidade mas não deployabilidade; times de produção vêm silenciosamente construindo harnesses caseiros há dois anos sem compartilhar como eles se parecem. A peça de Pratik R é uma divulgação rara da estrutura e limiares de um harness de produção real, mesmo que você desconte a alegação de "100+ deploys". Os três padrões de falha que ele nomeia — "vamos adicionar avaliação depois do MVP", "accuracy basta", e "spot-checks manuais estão bem" — batem com o que cada time construindo agentes reconhece da própria experiência. O limiar de 2% de taxa de alucinação é particularmente carregado porque a maioria dos benchmarks públicos aceita implicitamente taxas muito mais altas ao reportar só accuracy; para um agente respondendo perguntas de clientes ou conduzindo workflows regulados, 2% é a barra onde fazer deploy começa a ser defensável.

Para builders: pegue primeiro a estrutura em quatro categorias (retrieval, generation, agent, produção) — o agrupamento é sólido independente da procedência. Pegue os limiares como pontos de partida, depois calibre ao seu domínio (saúde precisa de alucinação perto de 0, suporte ao cliente pode tolerar 3-5% se o agente escalar). Trate LLM-as-judge como o sinal mais barato e o pareie com revisão humana periódica de casos na fronteira — o artigo admite que a revisão manual quebra a 10K queries/dia mas não trata totalmente o fato de que LLM-as-judge pode estar confiantemente errado sobre exatamente os casos que uma revisão manual pegaria. As metas de custo e latência são a metade chata do framework, e é nelas que a maioria das falhas de produção realmente vive: um agente que alucina 1% das vezes mas custa US$ 0,50 por query também não vai ser enviado. A peça de Pratik R está no link do TDS; trate-a como uma referência de partida, não como um padrão.