IIT Madras的20岁学生Dev Mandal发布了一个名为'computer-use-large'的数据集,在Hugging Face上的下载量已突破10万次。该数据集捕获人类与计算机的交互行为——屏幕截图、鼠标点击、键盘输入——专门用于训练AI代理像人类一样控制计算机。

这个时机恰到好处。计算机控制AI正是当前的淘金热,Anthropic的Claude领先,传言OpenAI紧随其后。但这些模型出了名的数据饥渴,而高质量的真实人类计算机行为数据集稀缺。现有的大多数数据集要么是合成的,要么范围有限,或者被锁在企业围墙后面。

原始报道中缺少的是关于数据质量和方法论的关键背景。不知道Mandal如何收集这些交互数据——是众包的吗?来自真实工作流程?经过隐私清理?——就无法判断这个数据集是否真的能推动进展。下载数字表明开发者对这类数据足够绝望,愿意尝试任何东西,但下载量不等于部署成功。

对于构建computer-use代理的开发者来说,这代表了一个难得的机会,可以用人类行为模式而非合成数据进行训练。但要谨慎行事——在投入训练资源之前彻底检查数据质量。Computer-use领域发展得足够快,一个平庸的数据集可能让你的项目倒退数周。