中国科学院自动化研究所近日发布的SolidGeo基准测试,揭示了当前多模态大语言模型(MLLM)在立体几何推理能力上的显著不足。这一系统性评测标准聚焦三维空间理解,通过3113个源自K-12教育及数学竞赛的高质量立体几何问题,对26个主流模型进行了全面评估。
测试结果显示,表现最优的OpenAI-o1模型准确率仅为49.5%,较人类水平(77.5%)存在明显差距。在平面折叠与展开等复杂任务中,该模型准确率进一步降至36.1%。值得注意的是,部分模型在特定难度任务中出现异常表现,反映出泛化能力的局限性。研究还发现,随着任务难度提升,多数模型出现准确率骤降和推理效率降低的”过度思考”现象。
这一发现与早前CVPR 2025录用的MV-MATH基准测试结果形成呼应。该研究显示,在多图数学推理任务中,Claude-3.5以33.9%的准确率领先,但仍大幅落后于人类表现(76.5%)。两项研究共同指向当前多模态模型在空间推理和跨模态整合方面的技术瓶颈。
尽管商汤科技等企业已推出6000亿参数的多模态基座模型,并在部分数学基准测试中实现性能对标国际领先模型,但SolidGeo的发布仍凸显出立体几何这一细分领域的特殊挑战。业内专家指出,要实现三维空间智能的突破,需在模型架构优化、训练方法改进和数据多样性增强等方面持续探索。
随着多模态技术被列为2025年三大重要技术趋势之一,SolidGeo基准的推出为行业提供了关键的技术标尺。该研究不仅填补了立体几何评估体系的空白,更为后续研究指明了提升空间认知能力的可能路径。
© 版权声明
文章版权归作者所有,未经允许请勿转载。