IBM于9月20日正式推出轻量级视觉语言模型Granite-Docling-258M,该模型专注于端到端文件转换场景,采用Apache 2.0开源协议并在Hugging Face平台发布。这款参数量为2.58亿的模型针对文档表格设计,其输出可完整保留版面、表格、数学公式等复杂结构,识别准确率显著优于传统OCR软件。
模型核心技术基于IBM Research研发的DocTags标记语言,该系统能精确描述页面元素的类型、坐标及逻辑关系,实现内容与版面结构的分离处理。通过先划定元素范围再执行OCR识别的流程,DocTags支持将转换结果直接导出为Markdown、JSON、HTML等多种格式,或接入Docling库进行深度处理。
目前该模型已支持中文、阿拉伯语和日语,但IBM坦言其尚未达到企业级应用标准。未来计划将扩展语言覆盖范围,提升模型可靠性,并加强DocTags与watsonx.ai平台的兼容性。开发路线图还包括将DocTags词汇表整合至Granite分词器和训练流程。
受此消息影响,IBM股价在9月23日早盘交易中上涨1.87%,报271.37美元,市值突破2527亿美元。市场分析认为,该产品的发布标志着IBM在轻量化AI模型领域的战略布局,其开源策略可能加速企业文档智能化转型进程。
© 版权声明
文章版权归作者所有,未经允许请勿转载。