全球首个ViLLA架构具身智能模型开源!智元机器人GO-1基座模型全面开放

智元机器人于9月23日正式宣布开源其GO-1(Genie Operator-1)通用具身基座大模型,这一举措标志着全球首个基于Vision-Language-Latent-Action(ViLLA)架构的具身智能模型向开发者社区全面开放。该开源项目旨在显著降低行业技术门槛,推动具身智能技术的快速普及与应用创新。

技术架构突破:ViLLA重塑交互范式
GO-1的核心创新在于ViLLA架构的设计。与传统Vision-Language-Action(VLA)模型相比,ViLLA通过引入隐式动作标记,有效解决了多模态输入(视觉、语言)与机器人动作执行间的语义断层问题。其三层协同系统包括:基于InternVL-2B的多模态理解层,负责场景感知与指令解析;隐式规划器生成高阶任务动作标记;扩散模型驱动的动作专家层则实现高精度连续动作输出。这一架构已在松灵机器人、Franka机械臂等异构平台上验证了跨本体适配能力。

开发支持与生态建设
为加速技术落地,智元同步推出Genie Studio一站式开发平台,集成数据采集、模型训练、仿真评测及真机部署全流程工具链。平台支持开箱即用的GO-1基座模型,兼容LeRobot通用数据格式,可适配第三方机器人本体。测试数据显示,GO-1在Genie Sim和Libero仿真环境中性能超越现有SOTA模型,真机部署效率提升30%以上。

开源战略与行业影响
此次开源延续了智元此前AgiBot World百万真机数据集的开源路线,进一步填补了具身智能领域基座模型的空白。开发者可通过GitHub、Huggingface等平台获取模型,结合Genie Studio快速构建垂直场景应用。业内分析认为,ViLLA架构的开放将促进服务机器人、工业自动化等领域的低成本技术迭代,尤其对科研教育机构具有显著普惠价值。

目前,GO-1已进入社区共建阶段,智元计划通过开发者生态持续优化模型泛化能力。这一动作也被视为其继8月发布Genie Envisioner世界模型平台后,在机器人技术栈开源化布局的关键一步。

© 版权声明

相关文章