Conntour recaudó $7 millones de General Catalyst y Y Combinator para construir lo que llaman un "motor de búsqueda AI" para sistemas de video de seguridad. La startup permite a equipos de seguridad consultar feeds de cámaras usando lenguaje natural—piensa "muéstrame todas las personas usando chaquetas rojas cerca de la entrada sur entre las 2-4 PM" en lugar de revisar manualmente horas de grabación.

Esto aborda un punto de dolor real en seguridad empresarial. La mayoría de organizaciones tienen cientos o miles de cámaras generando terabytes de grabaciones que son esencialmente imposibles de buscar sin esfuerzo humano masivo. La tecnología de visión por computadora para identificar objetos y personas existe, pero hacerla consultable a través de lenguaje natural es el avance de interfaz que realmente podría usarse. Es el mismo patrón que hemos visto funcionar en otros dominios—tomar capacidades AI existentes y envolverlas en una interfaz conversacional que usuarios no técnicos puedan realmente operar.

Con solo una fuente reportando esto y sin detalles técnicos sobre sus modelos AI o benchmarks de precisión, hay mucho que no sabemos. ¿Están usando modelos de visión existentes como CLIP o construyendo personalizados? ¿Cuál es su tasa de falsos positivos? ¿Cómo manejan casos límite como iluminación pobre o sujetos parcialmente ocultos? Aplicaciones de seguridad demandan alta precisión—no puedes tener el sistema perdiendo incidentes reales o marcando comportamiento inocente.

Para desarrolladores construyendo sistemas similares, la lección aquí es que el diseño de interfaz importa tanto como el rendimiento del modelo. Las capacidades AI para analizar feeds de video existen, pero empaquetarlas en algo que equipos de seguridad confíen y realmente usen diariamente es el verdadero desafío. Precisión de consultas, tiempo de respuesta, e integración seamless con infraestructura de seguridad existente determinarán si esto se convierte en una herramienta útil o shelfware caro.