阿里通义千问发布Qwen3-VL 2B/32B新版本,实现全场景多模态AI覆盖

阿里巴巴旗下通义千问团队于2025年10月22日宣布,其视觉语言模型Qwen3-VL系列新增2B与32B两个密集(Dense)架构版本,进一步完善了从轻量级到高性能的全场景覆盖能力。此次开源的模型延续了该系列的技术优势,在保持多模态理解核心能力的同时,显著降低了硬件部署门槛。

新发布的Qwen3-VL-32B在STEM学科问答、视觉问答(VQA)、光学字符识别(OCR)、视频理解及智能体任务等多项基准测试中,性能超越GPT-5 mini和Claude 4 Sonnet等国际主流模型。值得注意的是,该模型仅用32B参数即实现与235B参数模型的竞争水平,并在OSWorld等复杂环境交互评测中表现突出。而Qwen3-VL-2B则针对端侧设备优化,可在资源受限的移动终端运行,为开发者提供更轻量化的实验与部署选择。

两款模型均提供Instruct和Thinking双版本配置:Instruct版本侧重实时响应与工具调用稳定性,适用于常规交互场景;Thinking版本通过增强的长链推理能力,可处理需要深度视觉分析的复杂任务。这种差异化设计使得模型能够适配从消费电子到工业应用的多样化需求。

此次更新标志着Qwen3-VL系列已完成从2B到32B参数规模的产品矩阵构建,包含四款Dense架构模型和两款MoE架构模型。技术团队特别强调,新模型通过架构创新解决了小模型常见的”视觉-文本能力跷跷板”问题,在强化多模态感知的同时保持了语言理解性能。开发者现可通过魔搭社区和Hugging Face平台获取开源模型及FP8量化版本。

该系列模型此前已在Chatbot Arena的Vision Arena榜单中取得全球开源模型第一的成绩,此次扩展将进一步推动视觉语言大模型在边缘计算和移动设备领域的应用落地。

© 版权声明

相关文章