IBM lanzó Granite 4.0 3B Vision el 31 de marzo, un modelo de visión-lenguaje diseñado específicamente para extracción de datos de documentos empresariales en lugar de comprensión general de imágenes. El modelo viene como un adaptador LoRA de 0.5B parámetros que se carga sobre el modelo base Granite 4.0 Micro de IBM, creando un sistema de modo dual que puede manejar solicitudes de solo texto sin la sobrecarga visual. Construido con un codificador de visión SigLIP y arquitectura "DeepStack" que inyecta características visuales a través de 8 capas de transformador, se enfoca en tres tareas principales: convertir gráficos a CSV/código, extraer tablas a HTML/JSON, y extraer pares clave-valor semánticos de formularios.
Esto representa una desviación notable de la tendencia multimodal "más grande es mejor". Mientras las empresas persiguen las capacidades de GPT-4V y Gemini, IBM construyó algo específico y práctico. El modelo fue entrenado en ChartNet, un dataset de escala de millones enfocado en comprensión de gráficos, más un pipeline "guiado por código" que alinea código de ploteo con imágenes renderizadas y tablas de datos subyacentes. Ese enfoque de entrenamiento importa—la mayoría de modelos de visión son terribles en extracción estructurada porque están optimizados para descripciones de lenguaje natural, no para análisis preciso de datos.
La licencia Apache 2.0 y la historia de despliegue local diferencian esto de alternativas solo en la nube. Múltiples fuentes destacan la integración con el analizador de documentos Docling de IBM y soporte de inferencia vLLM, sugiriendo que esto apunta a equipos construyendo sistemas RAG o pipelines de documentos automatizados que necesitan mantener datos en sus instalaciones. El conteo de 3B parámetros lo hace factible ejecutar localmente mientras el diseño LoRA modular significa que no estás cargando pesos de visión para tareas de solo texto.
Para desarrolladores lidiando con procesamiento de documentos empresariales, esto podría ser significativo. La mayoría de soluciones existentes usan llamadas API costosas a modelos de vanguardia o luchan con la precisión de extracción estructurada que los flujos de trabajo empresariales demandan. Un modelo ejecutable localmente, con licencia Apache, que realmente maneja tablas y gráficos complejos apropiadamente llena un vacío real—asumiendo que cumple con las afirmaciones de precisión de IBM.
