IBM a lancé Granite 4.0 3B Vision le 31 mars, un modèle vision-langage conçu spécifiquement pour l'extraction de données de documents d'entreprise plutôt que pour la compréhension d'images générale. Le modèle est livré comme un adaptateur LoRA de 0,5 milliard de paramètres qui se charge par-dessus le modèle de base Granite 4.0 Micro d'IBM, créant un système à double mode qui peut gérer les requêtes texte seulement sans la surcharge visuelle. Construit avec un encodeur de vision SigLIP et une architecture « DeepStack » qui injecte des caractéristiques visuelles à travers 8 couches de transformeur, il se concentre sur trois tâches principales : convertir les graphiques en CSV/code, extraire les tableaux en HTML/JSON, et extraire les paires clé-valeur sémantiques des formulaires.

Ceci représente un écart notable de la tendance multimodale « plus gros c'est mieux ». Pendant que les compagnies poursuivent les capacités de GPT-4V et Gemini, IBM a construit quelque chose de précis et pratique. Le modèle a été entraîné sur ChartNet, un dataset à l'échelle du million focalisé sur la compréhension de graphiques, plus un pipeline « guidé par code » qui aligne le code de traçage avec les images rendues et les tableaux de données sous-jacents. Cette approche d'entraînement compte—la plupart des modèles de vision sont terribles pour l'extraction structurée parce qu'ils sont optimisés pour les descriptions en langage naturel, pas pour l'analyse précise de données.

La licence Apache 2.0 et l'histoire de déploiement local différencient ceci des alternatives cloud seulement. Plusieurs sources soulignent l'intégration avec l'analyseur de documents Docling d'IBM et le support d'inférence vLLM, suggérant que ceci cible les équipes qui construisent des systèmes RAG ou des pipelines de documents automatisés qui doivent garder les données sur site. Le compte de 3 milliards de paramètres le rend faisable à faire rouler localement tandis que la conception LoRA modulaire signifie que vous ne chargez pas les poids de vision pour les tâches texte seulement.

Pour les développeurs qui traitent avec le traitement de documents d'entreprise, ceci pourrait être significatif. La plupart des solutions existantes utilisent soit des appels API coûteux vers des modèles de pointe ou ont de la difficulté avec la précision d'extraction structurée que les flux de travail d'entreprise demandent. Un modèle qui peut rouler localement, sous licence Apache, qui gère réellement les tableaux et graphiques complexes correctement comble un vrai gap—en assumant qu'il livre sur les revendications de précision d'IBM.