上海AI实验室发布MinerU2.5文档解析大模型,性能超越GPT-4o等主流模型

上海人工智能实验室(Shanghai AI Lab)近日正式发布新一代文档解析大模型MinerU2.5,该模型以1.2B参数规模在多项国际权威评测中实现性能突破,成为当前文档解析领域的技术标杆。

MinerU2.5作为该系列最新迭代成果,在OmniDocBench、olmOCR-bench和Ocean-OCR三大评测体系中对标测试显示:其综合解析精度超越Gemini2.5-Pro、GPT-4o等通用大模型2.4-4.8个百分点,同时较dots.ocr、PP-StructureV3等专业文档工具提升显著。特别在复杂场景下,模型对旋转表格、手写批注及套娃公式等特殊元素的解析准确率可达92.3%,接近人类专家水平。

技术报告披露,该模型采用多模态混合架构设计,通过4800×4800高分辨率视觉图块处理配合轻量级语言解码器,在4090单卡环境下可实现1.7页/秒的实时解析速度。实际测试中,300页招股说明书解析耗时仅3分钟,成本较云端大模型降低两个数量级。

目前,MinerU2.5已在GitHub和Hugging Face平台开源,支持RAG知识库构建、大规模文档结构化提取等企业级应用场景。实验室团队表示,后续将重点优化跨语言文档解析能力,并计划于本季度末推出商用API服务。

© 版权声明

相关文章