Conntour从General Catalyst和Y Combinator筹集了700万美元,用于构建他们所谓的安防视频系统"AI搜索引擎"。这家初创公司让安保团队能够使用自然语言查询摄像头画面——比如"显示下午2-4点期间在南入口附近所有穿红夹克的人",而不是手动翻看数小时的录像。

这击中了企业安防的真正痛点。大多数组织拥有数百或数千台摄像头,产生TB级的录像,在没有大量人力的情况下基本无法搜索。识别物体和人员的计算机视觉技术已经存在,但通过自然语言使其可查询是真正可能被使用的界面突破。这与我们在其他领域看到的成功模式相同——将现有的AI能力包装在非技术用户实际能够操作的对话界面中。

只有一个消息源报道此事,且没有关于其AI模型或准确性基准的技术细节,我们还有很多未知。他们是在使用CLIP等现有视觉模型还是构建定制模型?误报率是多少?如何处理光线不佳或被部分遮挡的目标等边缘情况?安防应用需要高精度——系统不能遗漏真实事件或标记无辜行为。

对于构建类似系统的开发者来说,这里的教训是界面设计与模型性能同样重要。分析视频画面的AI能力已经存在,但将其打包成安保团队信任并实际每天使用的东西才是真正的挑战。查询准确性、响应时间以及与现有安防基础设施的seamless集成将决定这是否成为有用工具还是昂贵的shelfware。