Technology Innovation Institute a lancé Falcon Perception, un transformer de 600M paramètres qui abandonne l'approche modulaire standard de la vision par ordinateur pour une architecture unifiée. Au lieu d'encodeurs de vision séparés et de décodeurs de tâches, le modèle traite les patches d'image et les tokens de texte dans un espace de paramètres partagé dès la première couche, utilisant une attention hybride où les tokens d'image font attention bidirectionnellement tandis que le texte suit un masquage causal. Le modèle produit des coordonnées, tailles et masques de segmentation dans un format de séquence "Chain-of-Perception".

Ceci remet en question une hypothèse fondamentale dans la CV moderne—qu'on a besoin de composants spécialisés pour différentes modalités. La plupart des modèles vision-langage d'aujourd'hui suivent le pattern "Lego-brick" d'encodeurs pré-entraînés alimentant des têtes spécifiques aux tâches. L'approche de fusion précoce de Falcon Perception pourrait simplifier le déploiement et la mise à l'échelle, bien qu'à 600M paramètres il compete contre des modèles beaucoup plus larges comme GPT-4V et Gemini Vision qui dominent les benchmarks multimodaux.

L'implémentation technique inclut plusieurs éléments novateurs : Golden Gate ROPE (GGROPE) pour maintenir les relations spatiales 2D dans les séquences aplaties, l'optimiseur Muon pour les têtes de prédiction spécialisées, et FlexAttention pour traiter les images à résolution native sans gaspillage de padding. La stratégie scatter-and-pack pour gérer les tailles d'image variables est particulièrement ingénieuse. Cependant, l'article manque de comparaison contre les références vision-langage établies, et 600M paramètres semble petit pour l'objectif ambitieux de perception unifiée.

Pour les développeurs, ceci représente une direction architecturale intéressante—déploiement plus simple avec un modèle gérant plusieurs tâches de vision. Mais sans comparaisons de performance ou poids disponibles, il est difficile d'évaluer la viabilité pratique contre les modèles spécialisés existants qui fonctionnent déjà bien en production.