腾讯混元OCR开源模型发布:1B参数实现多项突破,OmniDocBench测评超越谷歌Gemini

AI产品动态2小时前发布 AI视野

腾讯近日正式发布开源OCR模型HunyuanOCR,该模型以1B参数的轻量化设计实现多项技术突破。作为混元原生多模态架构的重要成果,HunyuanOCR采用端到端设计理念,仅需单次前向推理即可完成复杂任务,显著提升了处理效率。

技术架构方面,该模型由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三大核心组件构成。其全端到端的训练推理范式结合规模化应用数据与在线强化学习,展现出稳定的推理性能。在OmniDocBench复杂文档解析测评中,HunyuanOCR以94.1分的成绩超越谷歌Gemini3-pro等业界领先模型。

性能表现上,模型在自建的九大场景基准测试(涵盖文档、街景、手写等应用场景)中,文字检测与识别能力均大幅领先同类产品。特别值得注意的是,在OCRBench榜单中,该模型以860分的总成绩创下3B以下参数规模的SOTA记录。

应用层面,HunyuanOCR支持14种高频小语种互译,并斩获ICDAR2025文档翻译比赛冠军。其多场景适配能力包括:复杂文档的电子化处理(支持Latex公式和HTML表格输出)、票据字段的标准化JSON解析、视频双语字幕自动抽取等实用功能。目前该模型已通过GitHub等平台开源,为开发者提供便捷的集成方案。

© 版权声明

相关文章