IBM于3月31日发布了Granite 4.0 3B Vision,这是一个专门为企业文档数据提取而设计的视觉语言模型,而非通用图像理解。该模型以5亿参数的LoRA适配器形式提供,加载在IBM的Granite 4.0 Micro基础模型之上,创建了一个双模式系统,可以处理纯文本请求而无需视觉开销。该模型采用SigLIP视觉编码器和"DeepStack"架构,在8个transformer层中注入视觉特征,专注于三个核心任务:将图表转换为CSV/代码、提取表格为HTML/JSON,以及从表单中提取语义键值对。
这代表了对"越大越好"多模态趋势的显著偏离。当其他公司追逐GPT-4V和Gemini能力时,IBM构建了一个狭窄而实用的东西。该模型在ChartNet上训练,这是一个专注于图表理解的百万级数据集,加上一个"代码引导"管道,将绘图代码与渲染图像和底层数据表对齐。这种训练方法很重要——大多数视觉模型在结构化提取方面表现糟糕,因为它们针对自然语言描述而非精确数据解析进行了优化。
Apache 2.0许可证和本地部署方案使其与仅云端的替代方案区别开来。多个来源强调与IBM的Docling文档解析器集成和vLLM推理支持,表明这针对构建RAG系统或自动化文档管道的团队,他们需要将数据保留在本地。30亿参数的规模使其可以在本地运行,而模块化LoRA设计意味着您不会为纯文本任务加载视觉权重。
对于处理企业文档处理的开发者来说,这可能很重要。大多数现有解决方案要么使用对前沿模型的昂贵API调用,要么在企业工作流程所需的结构化提取精度方面存在困难。一个可本地运行、Apache许可的模型,实际上能正确处理复杂表格和图表,填补了一个真正的空白——假设它能实现IBM的精度声明。
