A IBM lançou o Granite 4.0 3B Vision em 31 de março, um modelo de visão-linguagem projetado especificamente para extração de dados de documentos empresariais em vez de compreensão geral de imagens. O modelo vem como um adaptador LoRA de 0.5B parâmetros que carrega sobre o modelo base Granite 4.0 Micro da IBM, criando um sistema de modo duplo que pode lidar com solicitações apenas de texto sem a sobrecarga visual. Construído com um codificador de visão SigLIP e arquitetura "DeepStack" que injeta recursos visuais através de 8 camadas de transformer, ele foca em três tarefas principais: converter gráficos para CSV/código, extrair tabelas para HTML/JSON, e extrair pares chave-valor semânticos de formulários.
Isso representa um desvio notável da tendência multimodal "maior é melhor". Enquanto empresas perseguem capacidades do GPT-4V e Gemini, a IBM construiu algo específico e prático. O modelo foi treinado no ChartNet, um dataset de escala de milhões focado em compreensão de gráficos, mais um pipeline "guiado por código" que alinha código de plotagem com imagens renderizadas e tabelas de dados subjacentes. Essa abordagem de treinamento importa—a maioria dos modelos de visão são terríveis em extração estruturada porque são otimizados para descrições de linguagem natural, não para análise precisa de dados.
A licença Apache 2.0 e a história de implantação local diferenciam isso de alternativas apenas na nuvem. Múltiplas fontes destacam integração com o analisador de documentos Docling da IBM e suporte de inferência vLLM, sugerindo que isso visa equipes construindo sistemas RAG ou pipelines de documentos automatizados que precisam manter dados on-premises. A contagem de 3B parâmetros torna viável executar localmente enquanto o design LoRA modular significa que você não está carregando pesos de visão para tarefas apenas de texto.
Para desenvolvedores lidando com processamento de documentos empresariais, isso pode ser significativo. A maioria das soluções existentes usam chamadas API caras para modelos de ponta ou lutam com a precisão de extração estruturada que fluxos de trabalho empresariais demandam. Um modelo executável localmente, licenciado Apache, que realmente lida com tabelas e gráficos complexos adequadamente preenche uma lacuna real—assumindo que entrega nas afirmações de precisão da IBM.
