腾讯于2025年11月25日正式宣布开源其轻量级OCR模型HunyuanOCR,该模型参数规模为1B(10亿),基于混元原生多模态架构开发,在多项国际OCR基准测试中取得最先进水平(SOTA)成绩。此次开源标志着腾讯在光学字符识别领域的技术突破,为开发者社区提供了高效、易部署的文本识别解决方案。
技术架构与创新
HunyuanOCR采用端到端设计范式,由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三大核心组件构成。其独特之处在于通过单次前向推理即可完成复杂OCR任务,避免了传统级联方案的多次处理流程。模型训练结合规模化应用导向数据与在线强化学习,显著提升了端到端推理的稳定性。
性能表现
在权威测评中,HunyuanOCR展现出全面领先的能力:
– 复杂文档解析方面,于OmniDocBench测试中以94.1分超越谷歌Gemini3-pro等竞品;
– 文字检测与识别任务中,在涵盖文档、艺术字、街景等9大场景的自建基准上大幅领先开源及商业模型;
– OCRBench榜单总得分860分,成为参数量3B以下模型中的性能标杆。
多语言与场景适配
模型支持14种高频小语种(如德语、西班牙语、日语等)的中英文互译,并斩获ICDAR2025文档翻译比赛小模型赛道冠军。实际应用中,其能力覆盖票据字段抽取(JSON格式输出)、视频双语字幕识别、拍照翻译等功能,尤其擅长处理多语种混合文档、手写体及复杂版面(如LaTeX公式、HTML表格)。
开源生态与行业影响
开发者可通过GitHub获取模型权重与推理代码。腾讯强调,1B参数的紧凑设计使HunyuanOCR在电商等需高性价比OCR的场景中具备显著优势,有望推动文本识别技术在垂直领域的快速落地。此次开源亦被视为腾讯混元大模型生态向多模态实践延伸的重要里程碑。
© 版权声明
文章版权归作者所有,未经允许请勿转载。