腾讯混元OCR开源模型发布：1B参数实现多项突破，OmniDocBench测评超越谷歌Gemini

腾讯近日正式发布开源OCR模型HunyuanOCR，该模型以1B参数的轻量化设计实现多项技术突破。作为混元原生多模态架构的重要成果，HunyuanOCR采用端到端设计理念，仅需单次前向推理即可完成复杂任务，显著提升了处理效率。

技术架构方面，该模型由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三大核心组件构成。其全端到端的训练推理范式结合规模化应用数据与在线强化学习，展现出稳定的推理性能。在OmniDocBench复杂文档解析测评中，HunyuanOCR以94.1分的成绩超越谷歌Gemini3-pro等业界领先模型。

性能表现上，模型在自建的九大场景基准测试（涵盖文档、街景、手写等应用场景）中，文字检测与识别能力均大幅领先同类产品。特别值得注意的是，在OCRBench榜单中，该模型以860分的总成绩创下3B以下参数规模的SOTA记录。

应用层面，HunyuanOCR支持14种高频小语种互译，并斩获ICDAR2025文档翻译比赛冠军。其多场景适配能力包括：复杂文档的电子化处理（支持Latex公式和HTML表格输出）、票据字段的标准化JSON解析、视频双语字幕自动抽取等实用功能。目前该模型已通过GitHub等平台开源，为开发者提供便捷的集成方案。

文章版权归作者所有，未经允许请勿转载。

腾讯混元OCR开源模型发布：1B参数实现多项突破，OmniDocBench测评超越谷歌Gemini

昆仑万维发布Mureka V7.6与O2 AI音乐模型，文本到音乐精度提升40%

Skywork AI推出Nano Banana Pro：AI海报设计新革命，免费体验专业级视觉创作

相关文章

国产AI企业MiniMax推出Agent全栈开发功能，实现零代码开发复杂应用

越疆科技全球首发量产具身智能人形机器人Atom 刷新协作机器人性能纪录

Anthropic发布Claude Opus 4.5：编程能力首超人类，API价格大幅下调三分之二

IBM发布轻量级文档AI模型Granite-Docling-258M，开源助力企业文档智能化转型

最新资讯

热门AI工具

热门资讯