La vision par ordinateur moderne repose sur une fondation construite en 2012, lorsqu'un réseau de neurones convolutif appelé AlexNet a remporté la compétition ImageNet avec une marge choquante. Avant cela, la vision par ordinateur reposait sur des caractéristiques conçues à la main — les ingénieurs définissaient manuellement à quoi ressemblait un « bord », un « coin » ou une « texture », puis construisaient des classificateurs par-dessus ces caractéristiques. AlexNet a prouvé qu'un réseau de neurones profond entraîné sur suffisamment d'images étiquetées pouvait apprendre ses propres caractéristiques, et chaque percée ultérieure dans le domaine a suivi ce principe. Les architectures ont évolué des CNN (AlexNet, VGG, ResNet) aux Vision Transformers (ViT, qui applique le même mécanisme d'attention utilisé dans les modèles de langage à des patches d'image) aux designs hybrides qui combinent le meilleur des deux. Aujourd'hui, les systèmes de vision les plus performants — comme ceux qui propulsent la compréhension d'image de GPT-4o ou de Gemini de Google — sont des transformers multimodaux qui traitent images et texte dans une architecture unifiée.
La vision par ordinateur englobe plusieurs tâches distinctes, chacune avec ses propres défis. La classification d'images attribue une étiquette à une image entière (« c'est un chat »). La détection d'objets trouve des objets spécifiques dans une image et dessine des boîtes englobantes autour d'eux — YOLO (You Only Look Once) et ses descendants restent la famille de référence pour la détection en temps réel, traitant la vidéo à 30 à 100+ images par seconde. La segmentation sémantique étiquette chaque pixel d'une image (ce pixel est « route », celui-là est « piéton »), ce qui est essentiel pour la conduite autonome. La segmentation d'instances va plus loin, distinguant entre des objets séparés de la même classe (ce piéton-ci vs celui-là). Le Segment Anything Model (SAM) de Meta a rendu la segmentation zero-shot pratique en 2023, permettant de segmenter n'importe quel objet dans n'importe quelle image sans entraînement spécifique à la tâche. Et l'OCR (reconnaissance optique de caractères) a été transformé par les modèles vision-langage — au lieu de moteurs OCR spécialisés, on peut maintenant fournir l'image d'un document à un modèle multimodal et obtenir une extraction de texte structuré qui comprend les tableaux, l'écriture manuscrite et la mise en page.
La vision par ordinateur ne concerne pas seulement la compréhension des images — elle concerne de plus en plus leur création. Les modèles de diffusion (Stable Diffusion, DALL-E 3, Midjourney) génèrent des images en apprenant à inverser un processus de bruit : partir du bruit pur et le débruiter itérativement en une image cohérente, guidé par une instruction textuelle. Cette approche produit des résultats saisissants mais est coûteuse en calcul — générer une seule image 1024x1024 nécessite 20 à 50 étapes de débruitage, chacune impliquant un passage complet à travers un U-Net ou un transformer d'un milliard de paramètres. La génération vidéo étend cela à la dimension temporelle : des modèles comme Runway Gen-3, Sora et Kling génèrent de la vidéo en la traitant comme une séquence d'images qui doivent être cohérentes spatialement et temporellement. La qualité s'est améliorée remarquablement vite — de clips manifestement artificiels en 2023 à des vidéos courtes quasi photoréalistes en 2025 — bien que maintenir la cohérence sur des durées plus longues (identité des personnages, physique, permanence des objets) reste un défi ouvert.
L'écart entre les bancs d'essai de recherche et le déploiement en conditions réelles est là où la vision par ordinateur devient difficile. Un modèle qui atteint 99 % de précision sur ImageNet peut échouer spectaculairement face à un éclairage inhabituel, un flou de mouvement, une occlusion ou des conditions adverses. Les véhicules autonomes sont l'exemple le plus critique : l'approche vision uniquement de Tesla utilise huit caméras et un réseau de neurones sur mesure pour interpréter la scène de conduite en temps réel, tandis que Waymo fusionne les données de caméra avec des nuages de points lidar pour la redondance. L'imagerie médicale est une autre frontière — des systèmes d'IA d'entreprises comme PathAI et Paige peuvent détecter le cancer dans des lames d'histologie avec une précision rivalisant avec les pathologistes expérimentés, mais l'approbation réglementaire (autorisation FDA aux États-Unis, marquage CE en Europe) ajoute des années aux délais de déploiement. L'inspection industrielle, l'analytique de détail, la surveillance agricole et l'analyse d'imagerie satellite sont toutes des applications matures de vision par ordinateur où la technologie a dépassé le stade de la preuve de concept pour entrer en production quotidienne.
La tendance la plus significative en vision par ordinateur en ce moment est sa fusion avec la compréhension du langage. L'ancien paradigme était des modèles de vision spécialisés pour des tâches spécialisées — un modèle pour la détection, un autre pour la segmentation, un autre pour le sous-titrage. Le nouveau paradigme est un seul modèle multimodal qui peut voir et parler de ce qu'il voit. GPT-4o, Claude et Gemini peuvent tous accepter des images en entrée et raisonner dessus en langage naturel : « Qu'est-ce qui cloche sur ce circuit imprimé? » ou « Extrais les données de ce graphique. » Cette convergence est propulsée par des encodeurs de vision (comme SigLIP ou EVA-CLIP) qui traduisent les images dans le même espace de plongement que le texte, permettant au modèle de langage de traiter les caractéristiques visuelles aux côtés des mots. L'impact pratique est énorme — des tâches qui nécessitaient autrefois des pipelines de vision par ordinateur sur mesure avec des mois de développement peuvent maintenant être accomplies avec un seul appel API à un modèle multimodal.