Un investigador que estudió el despliegue de IA en pequeñas empresas, centros de salud y organizaciones sin fines de lucro en Estados Unidos, Reino Unido y Asia está señalando la falla fundamental en cómo evaluamos los sistemas de IA: se prueban en aislamiento pero se usan en equipos. La discrepancia es brutal—la IA de radiología aprobada por la FDA que supera a radiólogos expertos en benchmarks aún ralentiza al personal hospitalario que lucha por interpretar resultados dentro de sus estándares específicos de reportes y requisitos regulatorios.
Esto no es solo un problema académico. Las organizaciones están tomando decisiones de despliegue millonarias basadas en puntajes de benchmark que tienen cero valor predictivo para el rendimiento del mundo real. Estamos optimizando para las métricas equivocadas mientras perdemos riesgos sistémicos que solo emergen cuando la IA interactúa con flujos de trabajo humanos reales durante períodos extendidos. El enfoque actual genera titulares geniales pero resultados de despliegue terribles.
La solución propuesta—benchmarks Human-AI, Context-Specific Evaluation (HAIC)—probaría sistemas de IA dentro de los entornos desordenados y complejos donde realmente se usan. En lugar de medir si la IA vence a humanos en tareas aisladas, estos benchmarks evaluarían cómo se desempeña la IA cuando se integra en equipos existentes y procesos organizacionales durante horizontes temporales más largos.
Para desarrolladores y constructores de IA, esta investigación resalta una brecha crítica en cómo validamos nuestros sistemas antes del despliegue. Si estás construyendo herramientas de IA, considera probarlas con usuarios reales en sus entornos de trabajo actuales antes de reclamar mejoras de rendimiento. El puntaje de 98% de precisión no significa nada si tu IA hace que los equipos sean más lentos, no más rápidos.
