TinyFish聲稱Mind2Web得分90%，向Agent基礎設施發起挑戰

TinyFish推出了統一的網頁基礎設施平台，將搜尋、瀏覽器自動化和內容擷取整合到單一API金鑰下。該公司聲稱其系統在Mind2Web基準測試中達到90%的準確率，在300項任務中比Gemini高21分，比OpenAI高29分，比Anthropic高34分。他們的平台處理多步驟工作流程、表單互動和JavaScript重度網站，同時自動管理代理伺服器和隱身設定檔。

這解決了我反覆看到的真實痛點——團隊需要同時使用Puppeteer進行瀏覽器自動化、獨立的搜尋API、內容擷取服務和代理管理，只是為了讓agent能夠與真實網站運作。碎片化很殘酷，特別是當你需要agent導航複雜使用者流程或從不是為程式化存取而建構的網站擷取資料時。TinyFish將自己定位為「Google、DoorDash和ClassPass使用的同樣基礎設施」，表明他們一直在幕後為企業客戶提供服務。

有趣的是他們的cookbook方法——他們正在發布開源範例並營運200萬美元的加速器計畫，顯然押注於開發者採用而不僅僅是企業銷售。Mind2Web基準測試的聲明很大膽但足夠具體可以驗證。然而，網頁自動化承諾在示範中總是比在生產中聽起來更好。真實網站會崩潰、更改版面、新增驗證碼，並拋出邊緣情況，使得即使是最好的自動化也變得脆弱。

對於構建AI agent的開發者來說，如果它真的可靠運作的話，這可能會消除重大的基礎設施負擔。自然語言目標方法（「URL + 簡單英文，回傳結構化JSON」）正是agent建構者需要的。但考慮到有多少公司承諾過統一的網頁自動化平台，我想在將生產工作流程押注於此之前，看到跨不同網站的持續性能表現。

TinyFish聲稱Mind2Web得分90%，向Agent基礎設施發起挑戰

更多新聞