Le graphique largement diffusé d'Anthropic affirmant que l'IA a une « capacité théorique » à effectuer 80 % des tâches dans 22 catégories d'emplois n'est pas basé sur leurs propres tests de modèles. Au lieu de cela, il cite une étude d'OpenAI d'août 2023 qui utilisait des annotateurs humains — pas des vrais travailleurs dans ces domaines — pour deviner si GPT-4 ou un « logiciel anticipé alimenté par LLM » pourrait réduire le temps d'achèvement des tâches de 50 %. L'étude analysait les descriptions d'emplois granulaires d'O*NET, mais les évaluations « théoriques » provenaient de chercheurs en IA faisant des suppositions éclairées sur les capacités futures, pas de preuves empiriques.

Ceci importe parce que le graphique circule comme preuve d'un remplacement d'emplois imminent, alors que c'est vraiment de la spéculation d'il y a plus d'un an sur les améliorations de productivité, pas le remplacement d'emplois. Les chercheurs se concentraient explicitement sur les économies de temps « avec une qualité équivalente », pas l'automatisation complète. Pourtant, la visualisation d'Anthropic fait paraître comme si les LLM actuels étaient théoriquement capables d'effectuer la vaste majorité du travail humain dans des domaines allant des services juridiques à la gestion.

Ce qui est particulièrement révélateur, c'est que l'« exposition observée » (zone rouge) reste minuscule comparée à la « capacité théorique » (zone bleue). Cet écart révèle à quel point le déploiement réel de l'IA traîne derrière la spéculation des chercheurs. L'étude de 2023 ne pouvait pas tenir compte des défis d'implémentation du monde réel, des contraintes réglementaires, ou de la différence entre accélérer les tâches et remplacer complètement les travailleurs.

Pour les développeurs construisant des outils d'IA, cette déconnexion souligne pourquoi la recherche utilisateur et les tests du monde réel comptent plus que les évaluations théoriques. Avant de supposer que votre IA peut gérer 80 % de n'importe quelle catégorie d'emploi, testez-la avec de vrais praticiens dans ces domaines — pas des chercheurs en IA faisant des suppositions éclairées.