阿里国际开源多模态大模型Ovis2.5：视觉推理突破，中小企业AI应用门槛大降

阿里巴巴国际数字商业集团（简称“阿里国际”）于2025年8月26日正式发布新一代多模态大模型 Ovis2.5，并宣布全面开源。该模型在视觉感知、深度推理及成本效益方面实现显著突破，进一步巩固了其在开源多模态领域的技术领先地位。

性能表现与版本特性
Ovis2.5包含两个参数规模的版本：Ovis2.5-9B和Ovis2.5-2B。在权威评测平台OpenCompass的测试中，Ovis2.5-9B以78.3的综合得分超越多个参数量更大的模型，位列40B以下参数规模开源模型首位；Ovis2.5-2B则以73.9分延续了该系列“小体积、高性能”的设计理念，尤其适用于终端设备及资源受限场景。实测显示，新版本在复杂图表解析、数学题推理及跨模态知识应用（如通过风景照片推断地理位置并关联古诗）等任务中表现优异。

技术架构升级
模型采用三大核心创新设计：
1. 动态分辨率视觉特征提取：通过视觉词表模块实现视觉与文本信息的精准对齐，支持高分辨率图像处理；
2. 五阶段训练方案：结合基础预训练、多模态预训练及指令微调，并引入DPO与GRPO算法强化推理能力，训练效率提升3至4倍；
3. 结构化嵌入对齐：以Qwen3为基础增强语言处理能力，优化跨模态交互精度。

应用与生态影响
Ovis2.5已集成至阿里国际AI全栈解决方案体系，覆盖跨境电商的智能翻译、商品图像生成等高价值场景。其开源协议（Apache 2.0）允许开发者通过Hugging Face与GitHub直接调用模型权重，降低多模态应用开发门槛。阿里国际强调，此次升级将加速AI技术在金融、物流等行业的落地，特别是中小企业的低成本智能化转型。

此次发布是阿里国际继7月推出统一多模态模型Ovis-U1后的又一重要进展，标志着其在多模态技术从专用向通用化演进的过程中持续领跑。

文章版权归作者所有，未经允许请勿转载。

阿里国际开源多模态大模型Ovis2.5：视觉推理突破，中小企业AI应用门槛大降

谷歌Gemini 2.5 Nano-Banana登顶图像编辑榜首，Veo 3视频生成限免开放

Robomart发布RM5自动驾驶配送机器人：3美元固定配送费重构行业经济模型

相关文章

京东发布AI应用“京犀APP”：定位下一代购物与生活服务超级入口

小米AI眼镜新版本内测启动：语音支付停车费功能上线，200名米粉抢先体验

腾讯发布混元Large-Vision多模态理解模型，激活参数量达520亿

中国宇树机器人Unitree R1入选《时代》年度最佳发明，双足人形机器人实现技术突破

最新资讯

热门AI工具

热门资讯