阿里通义千问团队于本周正式开源Qwen3-VL系列视觉理解模型,推出4B(40亿参数)和8B(80亿参数)两个版本。该系列采用密集(Dense)架构设计,显存占用显著降低,同时完整保留Qwen3-VL全量能力项,每个尺寸均提供Instruct(指令调优)和Thinking(思维链)双版本。
技术性能方面,Qwen3-VL-8B在STEM学科问答、视觉问答(VQA)、光学字符识别(OCR)、视频理解及智能体任务等权威测评中表现突出,综合性能超越Gemini 2.5 Flash Lite与GPT-5 Nano等竞品,部分指标接近上一代720亿参数超大模型Qwen2.5-VL-72B。4B版本则展现出更优的端侧部署性价比,尤其适合手机、机器人等需要实时AI视觉理解的智能终端。
团队通过架构创新解决了小模型领域的”跷跷板效应”难题——传统方法中提升视觉能力往往导致文本性能下降。新技术实现了视觉精准度与文本稳健性的协同突破,使模型在保持自然语言理解能力的同时,显著增强多模态感知能力。通义千问大模型负责人林俊旸特别指出,该系列在小参数量下展现的空间智能特性,将为具身智能(embodied AI)发展提供重要技术支持。
目前,模型开源版本已同步上线魔搭社区和Hugging Face平台,并提供FP8量化版本以适配不同硬件环境。此次发布标志着国产视觉语言模型在小型化技术路线上的重要突破,为产业端AI应用提供了更灵活的部署选择。
© 版权声明
文章版权归作者所有,未经允许请勿转载。