人工智能领域迎来重要突破,DeepSeek团队于近日开源其创新性OCR模型DeepSeek-OCR。这款参数规模为30亿的模型通过独创的光学压缩技术,在长文本处理领域实现显著突破。该模型在GitHub平台公开发布,引发学术界与产业界广泛关注。
DeepSeek-OCR采用双组件架构设计,由DeepEncoder编码器与DeepSeek3B-MoE-A570M解码器构成。编码器整合了SAM-base的局部特征提取能力与CLIP-large的全局语义理解优势,通过16倍下采样技术实现高效压缩。解码器采用混合专家机制(MoE),实际运算参数控制在5.7亿,在保持模型性能的同时显著提升计算效率。
实验数据表明,当文本token数量控制在视觉token的10倍以内(压缩率<10×)时,模型OCR识别精度可达97%;即便压缩率提升至20倍,准确率仍维持在60%左右。在OmniDocBench基准测试中,该模型仅用100个视觉token即超越GOT-OCR2.0(需256个token)的性能表现,使用不足800个token时优于MinerU2.0(平均需6000+token)的识别效果。
技术实现方面,DeepEncoder支持512×512至1280×1280的多分辨率输入,涵盖Tiny(64 Token)到Large(400 Token)四种原生模式。训练数据包含3000万页多语言PDF文档,其中中英文数据达2500万页,覆盖约100种语言。模型采用粗细结合的标注策略,通过fitz工具实现基础语言识别,配合精标注数据提升专业符号识别能力。
该模型在金融、医疗、出版等领域展现出巨大应用潜力。金融机构可快速处理财报数据,医疗行业能高效数字化历史病历,出版机构处理古籍的效率可提升数十倍。特别值得注意的是,其视觉token压缩技术为突破大语言模型上下文长度限制提供了新思路,在记忆与遗忘机制研究方面具有重要理论价值。
研究团队表示,DeepSeek-OCR的成功验证了视觉-文本压缩范式的可行性,不仅优化了信息表示效率,更为多模态大模型的发展开辟了新路径。该成果已在GitHub平台开源,相关技术论文《DeepSeek-OCR:Contexts Optical Compression》同步发布。
© 版权声明
文章版权归作者所有,未经允许请勿转载。