IBM的Granite 4.0 3B Vision瞄准企业文档地狱

IBM于3月31日发布了Granite 4.0 3B Vision，这是一个专门为企业文档数据提取而设计的视觉语言模型，而非通用图像理解。该模型以5亿参数的LoRA适配器形式提供，加载在IBM的Granite 4.0 Micro基础模型之上，创建了一个双模式系统，可以处理纯文本请求而无需视觉开销。该模型采用SigLIP视觉编码器和"DeepStack"架构，在8个transformer层中注入视觉特征，专注于三个核心任务：将图表转换为CSV/代码、提取表格为HTML/JSON，以及从表单中提取语义键值对。

这代表了对"越大越好"多模态趋势的显著偏离。当其他公司追逐GPT-4V和Gemini能力时，IBM构建了一个狭窄而实用的东西。该模型在ChartNet上训练，这是一个专注于图表理解的百万级数据集，加上一个"代码引导"管道，将绘图代码与渲染图像和底层数据表对齐。这种训练方法很重要——大多数视觉模型在结构化提取方面表现糟糕，因为它们针对自然语言描述而非精确数据解析进行了优化。

Apache 2.0许可证和本地部署方案使其与仅云端的替代方案区别开来。多个来源强调与IBM的Docling文档解析器集成和vLLM推理支持，表明这针对构建RAG系统或自动化文档管道的团队，他们需要将数据保留在本地。30亿参数的规模使其可以在本地运行，而模块化LoRA设计意味着您不会为纯文本任务加载视觉权重。

对于处理企业文档处理的开发者来说，这可能很重要。大多数现有解决方案要么使用对前沿模型的昂贵API调用，要么在企业工作流程所需的结构化提取精度方面存在困难。一个可本地运行、Apache许可的模型，实际上能正确处理复杂表格和图表，填补了一个真正的空白——假设它能实现IBM的精度声明。

IBM的Granite 4.0 3B Vision瞄准企业文档地狱

更多新闻