Anthropic广泛传播的图表声称AI具有执行22个工作类别中80%任务的"理论能力",但这并非基于他们自己的模型测试。相反,它引用了OpenAI 2023年8月的一项研究,该研究使用了人类标注员——而非这些领域的实际工作者——来猜测GPT-4或"预期的LLM驱动软件"是否能将任务完成时间减少50%。该研究分析了O*NET的详细工作分解,但"理论"评估来自AI研究员对未来能力的有根据猜测,而非实证证据。
这很重要,因为该图表一直作为即将发生工作替代的证据在流传,而实际上它只是一年多前关于生产力改进的推测,而非工作替代。研究人员明确专注于"同等质量"的时间节省,而非完全自动化。然而Anthropic的可视化让人觉得当前的LLM理论上能够执行从法律服务到管理等各个领域的绝大部分人类工作。
特别说明问题的是,"观察到的暴露度"(红色区域)与"理论能力"(蓝色区域)相比仍然微不足道。这个差距揭示了实际AI部署远远落后于研究员的推测。2023年的研究无法考虑现实世界的实施挑战、监管限制,或加速任务与完全替代工作者之间的区别。
对于构建AI工具的开发者来说,这种脱节凸显了为什么用户研究和现实世界测试比理论评估更重要。在假设你的AI能处理任何工作类别的80%之前,请与这些领域的实际从业者进行测试——而非让AI研究员做有根据的猜测。
