阿里国际开源多模态大模型Ovis2.5:视觉推理突破,中小企业AI应用门槛大降

阿里巴巴国际数字商业集团(简称“阿里国际”)于2025年8月26日正式发布新一代多模态大模型Ovis2.5,并宣布全面开源。该模型在视觉感知、深度推理及成本效益方面实现显著突破,进一步巩固了其在开源多模态领域的技术领先地位。

性能表现与版本特性
Ovis2.5包含两个参数规模的版本:Ovis2.5-9B和Ovis2.5-2B。在权威评测平台OpenCompass的测试中,Ovis2.5-9B以78.3的综合得分超越多个参数量更大的模型,位列40B以下参数规模开源模型首位;Ovis2.5-2B则以73.9分延续了该系列“小体积、高性能”的设计理念,尤其适用于终端设备及资源受限场景。实测显示,新版本在复杂图表解析、数学题推理及跨模态知识应用(如通过风景照片推断地理位置并关联古诗)等任务中表现优异。

技术架构升级
模型采用三大核心创新设计:
1. 动态分辨率视觉特征提取:通过视觉词表模块实现视觉与文本信息的精准对齐,支持高分辨率图像处理;
2. 五阶段训练方案:结合基础预训练、多模态预训练及指令微调,并引入DPO与GRPO算法强化推理能力,训练效率提升3至4倍;
3. 结构化嵌入对齐:以Qwen3为基础增强语言处理能力,优化跨模态交互精度。

应用与生态影响
Ovis2.5已集成至阿里国际AI全栈解决方案体系,覆盖跨境电商的智能翻译、商品图像生成等高价值场景。其开源协议(Apache 2.0)允许开发者通过Hugging Face与GitHub直接调用模型权重,降低多模态应用开发门槛。阿里国际强调,此次升级将加速AI技术在金融、物流等行业的落地,特别是中小企业的低成本智能化转型。

此次发布是阿里国际继7月推出统一多模态模型Ovis-U1后的又一重要进展,标志着其在多模态技术从专用向通用化演进的过程中持续领跑。

© 版权声明

相关文章