小红书近日正式开源其首个多模态大模型dots.vlm1,该模型由小红书hi lab研发,基于12亿参数的自研视觉编码器NaViT和DeepSeek V3大语言模型构建,在多模态理解和推理任务中展现出接近当前闭源领先模型的性能水平。
技术架构方面,dots.vlm1采用完全从零训练的NaViT视觉编码器,原生支持动态分辨率输入,并通过引入纯视觉监督信号增强图像感知能力。训练数据上突破了传统思路,不仅包含常规图像描述数据,还整合了大量结构化图片及多样化合成数据,覆盖表格、图表、文档等专业场景,同时利用多模态模型重写网页图文数据以提升质量。
评测结果显示,该模型在MMMU、MathVision、OCR Reasoning等主流多模态基准测试中表现突出,整体性能接近Gemini 2.5 Pro与Seed-VL1.5等闭源先进模型。尤其在复杂图表解析、数学解题和OCR相关任务中展现出显著优势。文本能力方面,其推理表现与DeepSeek-R1-0528相当,在数学和代码生成任务中具备实用价值。
实际应用测试表明,dots.vlm1能够准确理解表情包语义、对比产品配料差异、识别文物背景信息,并能根据景区价目表制定购票方案。在STEM领域,模型可解析几何图形并完成数学推导,甚至通过emoji序列推理电影名称,体现了较强的跨模态关联能力。
目前模型已公开在Hugging Face平台,提供在线演示和完整开源代码。这是小红书继6月开源文本大模型dots.llm1后,在AI领域的又一重要技术突破,标志着国产多模态模型已具备与国际先进水平竞争的实力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。