一位研究人员在美国、英国和亚洲的小企业、医疗机构和非营利组织中研究了AI部署,他指出了我们评估AI系统时的根本缺陷:它们在隔离环境中测试,但在团队中使用。差距是惊人的——FDA批准的放射学AI在基准测试中超越专家放射科医生,但仍会拖慢医院工作人员的速度,因为他们难以在特定的报告标准和监管要求内解释输出结果。

这不仅仅是学术问题。组织正在基于基准测试分数做出数百万美元的部署决策,而这些分数对真实世界性能的预测价值为零。我们在优化错误的指标,同时错过了只有在AI与实际人类工作流程长期交互时才会出现的系统性风险。当前的方法产生了很好的标题,但部署结果糟糕。

提议的解决方案——Human-AI, Context-Specific Evaluation (HAIC)基准测试——将在实际使用AI系统的混乱复杂环境中进行测试。这些基准测试不是衡量AI是否在孤立任务中击败人类,而是评估AI在整合到现有团队和组织流程中时在更长时间范围内的表现。

对于开发者和AI构建者来说,这项研究突出了我们在部署前验证系统方式中的关键差距。如果你在构建AI工具,考虑在声称性能提升之前在真实用户的实际工作环境中测试它们。如果你的AI让团队变慢而不是更快,98%的准确率分数就毫无意义。