Um pesquisador que estudou implantação de IA em pequenas empresas, saúde e ONGs nos EUA, Reino Unido e Ásia está denunciando a falha fundamental em como avaliamos sistemas de IA: eles são testados isoladamente mas usados por equipes. A disparidade é gritante—IA de radiologia aprovada pela FDA que supera radiologistas especialistas em benchmarks ainda atrasa funcionários de hospital que lutam para interpretar resultados dentro de seus padrões específicos de relatório e requisitos regulamentares.
Isso não é apenas um problema acadêmico. Organizações estão tomando decisões de implantação milionárias baseadas em pontuações de benchmark que têm zero valor preditivo para performance no mundo real. Estamos otimizando para as métricas erradas enquanto perdemos riscos sistêmicos que só emergem quando IA interage com fluxos de trabalho humanos reais por períodos estendidos. A abordagem atual gera manchetes ótimas mas resultados de implantação terríveis.
A solução proposta—benchmarks Human-AI, Context-Specific Evaluation (HAIC)—testaria sistemas de IA dentro dos ambientes bagunçados e complexos onde são realmente usados. Em vez de medir se IA vence humanos em tarefas isoladas, esses benchmarks avaliariam como IA performa quando integrada em equipes existentes e processos organizacionais ao longo de horizontes temporais mais longos.
Para desenvolvedores e construtores de IA, essa pesquisa destaca uma lacuna crítica em como validamos nossos sistemas antes da implantação. Se você está construindo ferramentas de IA, considere testá-las com usuários reais em seus ambientes de trabalho reais antes de reivindicar ganhos de performance. A pontuação de 98% de precisão não significa nada se sua IA torna equipes mais lentas, não mais rápidas.
