阿里通义千问视觉模型登顶全球空间推理榜，超越GPT-5.1和Gemini 3

AI产品动态6个月前发布 AI视野

11月26日，国际权威空间推理基准测试SpatialBench发布最新榜单，阿里云旗下通义千问团队研发的视觉理解模型Qwen3-VL与Qwen2.5-VL包揽全球前两名，以显著优势超越谷歌Gemini 3、OpenAI GPT-5.1及Anthropic Claude Sonnet4.5等国际主流大模型。此次测试结果标志着中国在多模态AI技术领域取得突破性进展。

根据SpatialBench官方数据，Qwen3-VL-235B以13.5分的综合得分刷新该榜单纪录，其前代模型Qwen2.5-VL-72B以12.9分紧随其后。对比显示，Gemini 3.0 Pro Preview（9.6分）、GPT-5.1（7.5分）等竞品存在明显差距。该测试聚焦二维/三维空间中的结构分析、路径规划等具身智能核心能力，涵盖电路设计、CAD工程制图、分子结构解析等专业场景，被视为衡量AI空间认知能力的”试金石”。

技术分析表明，Qwen3-VL通过三项关键创新实现突破：首先，其增强型3D检测模块采用旋转框输出与深度估计技术，在物体遮挡场景下的识别准确率提升18%；其次，首创”视觉编程”功能，可直接将设计草图或10秒短视频转化为可执行的Python+OpenCV代码；此外，模型支持百万token级上下文理解，视频解析时长扩展至2小时以上。目前该模型已在千问APP开放免费体验。

值得注意的是，尽管AI模型表现亮眼，但距离人类基准线（约80分）仍有较大差距。阿里云透露，Qwen3-VL已在物流机器人精准抓取、AR工业装配等场景完成概念验证，空间定位误差控制在2厘米以内。团队计划2026年推出集成视觉-动作的端到端系统，进一步推动具身智能商业化落地。

此次登顶的Qwen3-VL延续了阿里开源战略，其235B参数版本采用混合专家架构（MoE），在32项核心测评中平均领先Gemini2.5-Pro达6.4分。此前开源的Qwen2.5-VL已广泛应用于智慧港口、自动驾驶等领域。行业观察人士指出，此次突破或将重塑全球多模态AI竞争格局，为机器人、元宇宙等前沿领域提供关键技术支撑。

文章版权归作者所有，未经允许请勿转载。

阿里通义千问视觉模型登顶全球空间推理榜，超越GPT-5.1和Gemini 3

ChatGPT语音交互重大升级！语音模式全面整合至主界面，多模态体验再进化

OpenAI预测2030年ChatGPT付费用户将突破2.2亿，成全球最大订阅服务之一

相关文章

Physical Intelligence获6亿美元融资，通用机器人AI技术迎来爆发期

商汤科技杨帆：AI重构知识产权全链条效率，大模型加速专利转化与侵权监测

即梦AI网页版全面升级，推出AI片场一站式创作解决方案，视频3.5 Pro模型实现音画同步突破

蚂蚁集团百灵Ling-mini-2.0大模型首发上线硅基流动平台，128K上下文助力企业降本60%

最新资讯

热门AI工具

热门资讯