O gráfico amplamente circulado da Anthropic alegando que IA tem "capacidade teórica" para realizar 80% das tarefas em 22 categorias de trabalho não é baseado em testes dos próprios modelos deles. Em vez disso, cita um estudo da OpenAI de agosto de 2023 que usou anotadores humanos—não trabalhadores reais desses campos—para adivinhar se GPT-4 ou "software antecipado alimentado por LLM" poderia reduzir o tempo de conclusão de tarefas em 50%. O estudo analisou as divisões granulares de trabalhos do O*NET, mas as avaliações "teóricas" vieram de pesquisadores de IA fazendo suposições educadas sobre capacidades futuras, não evidência empírica.
Isso importa porque o gráfico tem circulado como evidência de substituição iminente de empregos, quando na verdade é especulação de mais de um ano atrás sobre melhorias de produtividade, não substituição de trabalhos. Os pesquisadores focaram explicitamente em economia de tempo "com qualidade equivalente", não automação completa. Ainda assim, a visualização da Anthropic faz parecer como se LLMs atuais fossem teoricamente capazes de realizar a grande maioria do trabalho humano em campos desde serviços jurídicos até gestão.
O que é particularmente revelador é que a "exposição observada" (área vermelha) permanece minúscula comparada à "capacidade teórica" (área azul). Essa lacuna revela o quão longe a implementação real de IA fica da especulação de pesquisadores. O estudo de 2023 não pôde considerar desafios de implementação do mundo real, restrições regulatórias, ou a diferença entre acelerar tarefas e substituir trabalhadores completamente.
Para desenvolvedores construindo ferramentas de IA, essa desconexão destaca por que pesquisa de usuário e testes do mundo real importam mais que avaliações teóricas. Antes de assumir que sua IA pode lidar com 80% de qualquer categoria de trabalho, teste com praticantes reais nesses campos—não pesquisadores de IA fazendo suposições educadas.
