上海AI实验室发布MinerU2.5文档解析大模型，性能超越GPT-4o等主流模型

上海人工智能实验室（Shanghai AI Lab）近日正式发布新一代文档解析大模型 MinerU2.5，该模型以1.2B参数规模在多项国际权威评测中实现性能突破，成为当前文档解析领域的技术标杆。

MinerU2.5作为该系列最新迭代成果，在OmniDocBench、olmOCR-bench和Ocean-OCR三大评测体系中对标测试显示：其综合解析精度超越Gemini2.5-Pro、GPT-4o等通用大模型2.4-4.8个百分点，同时较dots.ocr、PP-StructureV3等专业文档工具提升显著。特别在复杂场景下，模型对旋转表格、手写批注及套娃公式等特殊元素的解析准确率可达92.3%，接近人类专家水平。

技术报告披露，该模型采用多模态混合架构设计，通过4800×4800高分辨率视觉图块处理配合轻量级语言解码器，在4090单卡环境下可实现1.7页/秒的实时解析速度。实际测试中，300页招股说明书解析耗时仅3分钟，成本较云端大模型降低两个数量级。

目前，MinerU2.5已在GitHub和Hugging Face平台开源，支持RAG知识库构建、大规模文档结构化提取等企业级应用场景。实验室团队表示，后续将重点优化跨语言文档解析能力，并计划于本季度末推出商用API服务。

文章版权归作者所有，未经允许请勿转载。

上海AI实验室发布MinerU2.5文档解析大模型，性能超越GPT-4o等主流模型

ChatGPT整合印度UPI支付功能：AI驱动电商交易新突破

vivo发布OriginOS 6系统：AI全场景升级，首次实现跨生态互联

相关文章

DeepSeek-V3.1重磅升级：128K上下文窗口震撼发布，长文本处理能力翻倍

OpenAI禁止ChatGPT提供医疗法律金融专业建议，应对全球AI监管趋严

AI21 Labs开源Jamba Reasoning 3B：首款支持手机端运行的商业级开源大模型

黄仁勋深度剖析：中国AI基建与能源优势如何重塑全球竞争格局

最新资讯

热门AI工具

热门资讯