11月26日,国际权威空间推理基准测试SpatialBench发布最新榜单,阿里云旗下通义千问团队研发的视觉理解模型Qwen3-VL与Qwen2.5-VL包揽全球前两名,以显著优势超越谷歌Gemini 3、OpenAI GPT-5.1及Anthropic Claude Sonnet4.5等国际主流大模型。此次测试结果标志着中国在多模态AI技术领域取得突破性进展。
根据SpatialBench官方数据,Qwen3-VL-235B以13.5分的综合得分刷新该榜单纪录,其前代模型Qwen2.5-VL-72B以12.9分紧随其后。对比显示,Gemini 3.0 Pro Preview(9.6分)、GPT-5.1(7.5分)等竞品存在明显差距。该测试聚焦二维/三维空间中的结构分析、路径规划等具身智能核心能力,涵盖电路设计、CAD工程制图、分子结构解析等专业场景,被视为衡量AI空间认知能力的”试金石”。
技术分析表明,Qwen3-VL通过三项关键创新实现突破:首先,其增强型3D检测模块采用旋转框输出与深度估计技术,在物体遮挡场景下的识别准确率提升18%;其次,首创”视觉编程”功能,可直接将设计草图或10秒短视频转化为可执行的Python+OpenCV代码;此外,模型支持百万token级上下文理解,视频解析时长扩展至2小时以上。目前该模型已在千问APP开放免费体验。
值得注意的是,尽管AI模型表现亮眼,但距离人类基准线(约80分)仍有较大差距。阿里云透露,Qwen3-VL已在物流机器人精准抓取、AR工业装配等场景完成概念验证,空间定位误差控制在2厘米以内。团队计划2026年推出集成视觉-动作的端到端系统,进一步推动具身智能商业化落地。
此次登顶的Qwen3-VL延续了阿里开源战略,其235B参数版本采用混合专家架构(MoE),在32项核心测评中平均领先Gemini2.5-Pro达6.4分。此前开源的Qwen2.5-VL已广泛应用于智慧港口、自动驾驶等领域。行业观察人士指出,此次突破或将重塑全球多模态AI竞争格局,为机器人、元宇宙等前沿领域提供关键技术支撑。
© 版权声明
文章版权归作者所有,未经允许请勿转载。