El gráfico ampliamente circulado de Anthropic que afirma que la IA tiene "capacidad teórica" para realizar el 80% de las tareas en 22 categorías laborales no está basado en pruebas de sus propios modelos. En cambio, cita un estudio de OpenAI de agosto 2023 que usó anotadores humanos—no trabajadores reales de esos campos—para adivinar si GPT-4 o "software anticipado impulsado por LLM" podría reducir el tiempo de completar tareas en un 50%. El estudio analizó los desglose granulares de trabajos de O*NET, pero las evaluaciones "teóricas" vinieron de investigadores de IA haciendo conjeturas educadas sobre capacidades futuras, no evidencia empírica.

Esto importa porque el gráfico ha estado circulando como evidencia de desplazamiento laboral inminente, cuando realmente es especulación de hace más de un año sobre mejoras de productividad, no reemplazo de trabajos. Los investigadores se enfocaron explícitamente en ahorros de tiempo "con calidad equivalente", no automatización completa. Sin embargo, la visualización de Anthropic hace parecer como si los LLM actuales fueran teóricamente capaces de realizar la gran mayoría del trabajo humano en campos desde servicios legales hasta administración.

Lo que es particularmente revelador es que la "exposición observada" (área roja) permanece diminuta comparada con la "capacidad teórica" (área azul). Esta brecha revela qué tan lejos está el despliegue real de IA de la especulación de investigadores. El estudio de 2023 no pudo considerar desafíos de implementación del mundo real, restricciones regulatorias, o la diferencia entre acelerar tareas y reemplazar trabajadores completamente.

Para desarrolladores construyendo herramientas de IA, esta desconexión resalta por qué la investigación de usuarios y las pruebas del mundo real importan más que las evaluaciones teóricas. Antes de asumir que tu IA puede manejar el 80% de cualquier categoría laboral, pruébala con practicantes reales en esos campos—no investigadores de IA haciendo conjeturas educadas.