AI新突破!GeoVLA框架实现三维几何感知与语义理解协同,具身智能迈向新阶段

AI产品动态21小时前发布 AI视野

近日,Dexmal原力灵机团队提出的GeoVLA框架引发行业广泛关注。该技术通过创新的双流架构,首次在视觉-语言-动作(VLA)模型中实现三维几何感知与语义理解的协同,标志着具身智能领域取得重要突破。

当前主流VLA模型如OpenVLA、RT-2等长期受限于2D RGB图像输入,导致机器人存在”空间失明”缺陷。这种二维视觉的”纸片化”世界认知,使模型难以处理需要精确深度判断的任务,且在物体尺度变化或视角偏移时表现脆弱。GeoVLA框架通过解耦设计攻克了这一难题:语义理解流采用Prismatic-7B等预训练视觉语言模型处理RGB图像和指令,保持强大的语义解析能力;几何感知流则通过专用点云嵌入网络(PEN)处理深度图转换的点云数据,独立提取高精度3D特征。二者最终由空间感知动作专家(3DAE)融合生成动作序列。

实测数据显示,该框架在仿真环境中达到SOTA性能,在真实世界的视角变化、物体缩放等极端条件下展现出显著鲁棒性。相较于传统方法将语义与几何特征耦合处理导致相互干扰的缺陷,GeoVLA的解耦架构使模型既能准确识别物体属性,又能精确定位空间位置。这一突破为机器人完成精准投篮、复杂装配等需要三维空间认知的任务提供了新的技术路径。

业内专家指出,GeoVLA的成功验证了”语义与几何解耦”技术路线的可行性,为具身智能从实验室走向现实应用扫除了关键障碍。随着商汤、智元机器人等企业加速推进技术落地,三维视觉能力有望成为下一代通用机器人的标准配置。

© 版权声明

相关文章