空间推理

排序

阿里云通义千问Qwen3-VL在权威空间推理测试SpatialBench中以13.5分登顶全球第一，超越GPT-5.1和Gemini 3等国际主流模型。该模型具备增强3D检测、视觉编程等创新功能，已在...

5个月前

中科院最新SolidGeo基准测试显示：主流多模态大语言模型在立体几何推理任务中平均准确率不足50%，较人类水平差距达28%。研究深入分析3113道三维几何问题，揭示MLLM在空间折叠、多图推理等复杂...

10个月前