Pratik R publicó esta semana en Towards Data Science un arnés de evaluación de 12 métricas para agentes IA en producción, tomado de lo que el autor describe como más de 100 despliegues enterprise. Es el playbook de un practicante más que un estándar canónico — y precisamente por eso vale la pena destacarlo: los umbrales son lo suficientemente concretos como para tomarlos, y el encuadre de los modos de falla nombra categorías que la mayoría de las suites de benchmark todavía evitan. El arnés se agrupa en cuatro: retrieval, generación, comportamiento de agente, y costo/latencia de producción. La historia de origen es más honesta que el promedio: un compliance officer de un cliente de salud preguntó "¿cómo saben que su agente no está alucinando síntomas del paciente?" y el equipo tenía pruebas unitarias, pruebas de integración, y un modelo que rendía hermosamente en el dataset de demo — pero no tenía forma de medir tasa de alucinación, fidelidad al contexto, o precisión de selección de herramientas en el tráfico en vivo.

Los umbrales concretos son la parte para copiar. Retrieval (4 métricas): context relevance por encima de 0,85 en top-10 chunks, context recall por encima de 0,90 en consultas benchmark etiquetadas, context precision por encima de 0,80, latencia de retrieval bajo 200ms en p95. Generación (3): answer faithfulness por encima de 0,95 frente al contexto recuperado, answer relevance por encima de 0,90, tasa de alucinación por debajo del 2%. Agente (3): precisión de selección de herramientas por encima de 0,92, éxito de ejecución de herramientas por encima de 0,98, coherencia multi-paso por encima de 0,85. Producción (2): costo bajo 0,05 $ por consulta típica, latencia p99 end-to-end bajo 3 segundos. La mayoría se puntúan con un evaluador LLM-as-judge — ese es el caveat de carga del artículo. LLM-as-judge tiene problemas conocidos de confiabilidad en las métricas que más importan, especialmente en detección de alucinación donde el modelo juez y el modelo agente pueden compartir puntos ciegos, y en fidelidad de respuesta donde el juez puede calificar como fiel algo que un experto en el dominio no calificaría así. El framework necesita acompañarse de spot-checks humanos en los bordes de los umbrales, no solo confiarse ciegamente.

La lectura ecosistémica cae contra el vacío editorial en evaluación de agentes. Los labs frontera publican sobre benchmarks académicos saturados (HELM, AgentBench, MMLU, GAIA) que prueban capacidad pero no implantabilidad; los equipos de producción han estado construyendo silenciosamente arneses caseros durante dos años sin compartir cómo se ven. La pieza de Pratik R es una rara divulgación de la estructura y umbrales de un arnés de producción real, incluso si descuentas la afirmación de "100+ despliegues". Los tres patrones de falla que nombra — "agregaremos evaluación después del MVP", "con precisión basta", y "los spot-checks manuales están bien" — coinciden con lo que cada equipo construyendo agentes reconoce de su propia experiencia. El umbral de 2% de tasa de alucinación es particularmente cargante porque la mayoría de los benchmarks públicos aceptan implícitamente tasas mucho más altas al reportar solo accuracy; para un agente respondiendo preguntas de clientes o manejando workflows regulados, 2% es la barra donde enviar a producción empieza a ser defendible.

Para builders: toma primero la estructura en cuatro categorías (retrieval, generación, agente, producción) — el agrupamiento es sólido independientemente de la procedencia. Toma los umbrales como puntos de partida, después calibra a tu dominio (salud necesita alucinación cerca de 0, soporte al cliente puede tolerar 3-5% si el agente escala). Trata a LLM-as-judge como la señal más barata y emparéjala con revisión humana periódica de casos al borde — el artículo admite que la revisión manual se rompe a 10K consultas/día pero no aborda del todo que LLM-as-judge puede equivocarse con confianza sobre exactamente los casos que una revisión manual atraparía. Los objetivos de costo y latencia son la mitad aburrida del framework, y ahí es donde viven en realidad la mayoría de las fallas de producción: un agente que alucina el 1% del tiempo pero cuesta 0,50 $ por consulta tampoco se va a enviar. La pieza de Pratik R está en el link de TDS; trátala como una referencia de partida, no como un estándar.