DeepSeek-OCR开源多模态模型发布:视觉文本压缩技术实现10倍无损压缩

10月20日,人工智能研究团队DeepSeek AI正式发布开源多模态模型DeepSeek-OCR,该模型通过创新性的视觉文本压缩技术,显著提升了长文本处理的效率与资源利用率。这一突破性成果已在GitHub和Hugging Face平台开源,并同步发布技术论文《DeepSeek-OCR:Contexts Optical Compression》。

该模型的核心创新在于将文本信息转化为视觉模态进行处理,实现了高达10倍的无损压缩率。测试数据显示,当文本Token数量控制在视觉Token的10倍以内时,模型能保持97%以上的OCR识别准确率;即使压缩率提升至20倍,准确率仍可维持在60%左右。这种”光学压缩”技术有效解决了传统大语言模型处理长文本时算力消耗呈平方级增长的问题。

模型采用双组件架构设计:DeepEncoder模块整合了SAM图像分割与CLIP视觉理解能力,支持512×512至1280×1280多分辨率输入,通过16倍卷积压缩显著降低激活内存开销;解码器采用参数量为3B的MoE混合专家架构,实际推理时仅激活约5.7亿参数,兼具30亿参数模型的表达能力与5亿参数模型的推理效率。基准测试表明,该模型仅用100个视觉Token即超越GOT-OCR2.0(需256 Token)性能,800个视觉Token便可优于平均消耗6000+Token的MinerU2.0。

在实际应用层面,DeepSeek-OCR展现出惊人的生产力。单张A100-40G显卡每日可处理超过20万页文档,20节点集群日处理量可达3300万页,为大规模语言模型训练数据构建提供了全新解决方案。模型同时支持Tiny到Gundam五种尺寸配置,其中专为复杂文档优化的Gundam版本采用1024×640混合尺寸及动态裁剪策略,能精准处理多栏排版、图文混排的专业文档。

为降低使用门槛,开发团队提供了全链路工具链支持,包括PDF转图像工具、批量处理脚本和可视化结果分析模块。技术文档详细说明了不同硬件环境下的最优配置方案,非专业用户也可通过transformers库快速部署。值得注意的是,研究团队还提出了模拟人类记忆衰退机制的前瞻性设想——通过逐步缩小历史上下文图像的尺寸实现”可控遗忘”,这一创新思路为超长上下文处理开辟了新研究方向。

© 版权声明

相关文章