TinyFish声称Mind2Web得分90%，向Agent基础设施发起挑战

TinyFish推出了统一的网页基础设施平台，将搜索、浏览器自动化和内容提取整合到单一API密钥下。该公司声称其系统在Mind2Web基准测试中达到90%的准确率，在300项任务中比Gemini高21分，比OpenAI高29分，比Anthropic高34分。他们的平台处理多步骤工作流、表单交互和JavaScript重度网站，同时自动管理代理和隐身配置文件。

这解决了我反复看到的真实痛点——团队需要同时使用Puppeteer进行浏览器自动化、单独的搜索API、内容提取服务和代理管理，只是为了让agent能够与真实网站工作。碎片化很残酷，特别是当你需要agent导航复杂用户流程或从不是为程序化访问而构建的网站提取数据时。TinyFish将自己定位为"Google、DoorDash和ClassPass使用的同样基础设施"，表明他们一直在幕后为企业客户提供服务。

有趣的是他们的cookbook方法——他们正在发布开源示例并运营200万美元的加速器项目，显然押注于开发者采用而不仅仅是企业销售。Mind2Web基准测试的声明很大胆但足够具体可以验证。然而，网页自动化承诺在演示中总是比在生产中听起来更好。真实网站会崩溃、更改布局、添加验证码，并抛出边缘情况，使得即使是最好的自动化也变得脆弱。

对于构建AI agent的开发者来说，如果它真的可靠工作的话，这可能会消除重大的基础设施开销。自然语言目标方法（"URL + 简单英语，返回结构化JSON"）正是agent构建者需要的。但考虑到有多少公司承诺过统一的网页自动化平台，我想在将生产工作流程押注于此之前，看到跨不同网站的持续性能表现。

TinyFish声称Mind2Web得分90%，向Agent基础设施发起挑战

更多新闻