小红书开源多模态大模型dots.vlm1，性能接近国际领先水平

小红书近日正式开源其首个多模态大模型 dots.vlm1，该模型由小红书hi lab研发，基于12亿参数的自研视觉编码器 NaViT和DeepSeek V3大语言模型构建，在多模态理解和推理任务中展现出接近当前闭源领先模型的性能水平。

技术架构方面，dots.vlm1采用完全从零训练的NaViT视觉编码器，原生支持动态分辨率输入，并通过引入纯视觉监督信号增强图像感知能力。训练数据上突破了传统思路，不仅包含常规图像描述数据，还整合了大量结构化图片及多样化合成数据，覆盖表格、图表、文档等专业场景，同时利用多模态模型重写网页图文数据以提升质量。

评测结果显示，该模型在MMMU、MathVision、OCR Reasoning等主流多模态基准测试中表现突出，整体性能接近Gemini 2.5 Pro与Seed-VL1.5等闭源先进模型。尤其在复杂图表解析、数学解题和OCR相关任务中展现出显著优势。文本能力方面，其推理表现与DeepSeek-R1-0528相当，在数学和代码生成任务中具备实用价值。

实际应用测试表明，dots.vlm1能够准确理解表情包语义、对比产品配料差异、识别文物背景信息，并能根据景区价目表制定购票方案。在STEM领域，模型可解析几何图形并完成数学推导，甚至通过emoji序列推理电影名称，体现了较强的跨模态关联能力。

目前模型已公开在Hugging Face平台，提供在线演示和完整开源代码。这是小红书继6月开源文本大模型dots.llm1后，在AI领域的又一重要技术突破，标志着国产多模态模型已具备与国际先进水平竞争的实力。

文章版权归作者所有，未经允许请勿转载。

小红书开源多模态大模型dots.vlm1，性能接近国际领先水平

腾讯AI Lab开源深度研究智能体框架Cognitive Kernel-Pro，推动智能体技术普惠化

马斯克宣布Grok Imagine视频生成功能免费开放，AI视频创作迎来新浪潮

相关文章

腾讯发布ima 2.0：首个融合Agent能力的个人知识库平台，开启AI共事伙伴新时代

夸克健康大模型实现“主任医师级”AI能力，医疗AI推理突破性进展

微软发布自研图像生成模型MAI-Image-1，LMArena榜单跻身前十

微软发布700个真实AI应用案例，展示多行业智能化转型成果

最新资讯

热门AI工具

热门资讯