Conntour a levé 7 millions de dollars auprès de General Catalyst et Y Combinator pour construire ce qu'ils appellent un « moteur de recherche AI » pour les systèmes de vidéosurveillance. La startup permet aux équipes de sécurité d'interroger les flux de caméras en utilisant le langage naturel—pensez à « montre-moi toutes les personnes portant des vestes rouges près de l'entrée sud entre 14h et 16h » au lieu de parcourir manuellement des heures d'enregistrement.

Ca touche un vrai point de douleur dans la sécurité d'entreprise. La plupart des organisations ont des centaines ou des milliers de caméras qui génèrent des téraoctets d'images essentiellement impossibles à chercher sans un effort humain massif. La technologie de vision par ordinateur pour identifier les objets et les personnes existe, mais la rendre interrogeable par langage naturel, c'est la percée d'interface qui pourrait vraiment être utilisée. C'est le même pattern qu'on a vu fonctionner dans d'autres domaines—prendre les capacités AI existantes et les emballer dans une interface conversationnelle que les utilisateurs non techniques peuvent vraiment utiliser.

Avec seulement une source rapportant ceci et aucun détail technique sur leurs modèles AI ou benchmarks de précision, il y a beaucoup qu'on ne sait pas. Est-ce qu'ils utilisent des modèles de vision existants comme CLIP ou en construisent des personnalisés? Quel est leur taux de faux positifs? Comment gèrent-ils les cas limites comme l'éclairage faible ou les sujets partiellement cachés? Les applications de sécurité exigent une haute précision—on peut pas avoir le système qui rate des vrais incidents ou qui signale des comportements innocents.

Pour les développeurs qui construisent des systèmes similaires, la leçon ici c'est que le design d'interface compte autant que la performance du modèle. Les capacités AI pour analyser les flux vidéo existent, mais les empaqueter dans quelque chose que les équipes de sécurité vont faire confiance et vraiment utiliser quotidiennement, c'est le vrai défi. La précision des requêtes, le temps de réponse, et l'intégration seamless avec l'infrastructure de sécurité existante vont déterminer si ça devient un outil utile ou du shelfware dispendieux.