全球首个ViLLA架构具身智能模型开源！智元机器人GO-1基座模型全面开放

AI产品动态8个月前发布 AI视野

智元机器人于9月23日正式宣布开源其GO-1（Genie Operator-1）通用具身基座大模型，这一举措标志着全球首个基于Vision-Language-Latent-Action（ViLLA）架构的具身智能模型向开发者社区全面开放。该开源项目旨在显著降低行业技术门槛，推动具身智能技术的快速普及与应用创新。

技术架构突破：ViLLA重塑交互范式
GO-1的核心创新在于ViLLA架构的设计。与传统Vision-Language-Action（VLA）模型相比，ViLLA通过引入隐式动作标记，有效解决了多模态输入（视觉、语言）与机器人动作执行间的语义断层问题。其三层协同系统包括：基于InternVL-2B的多模态理解层，负责场景感知与指令解析；隐式规划器生成高阶任务动作标记；扩散模型驱动的动作专家层则实现高精度连续动作输出。这一架构已在松灵机器人、Franka机械臂等异构平台上验证了跨本体适配能力。

开发支持与生态建设
为加速技术落地，智元同步推出Genie Studio一站式开发平台，集成数据采集、模型训练、仿真评测及真机部署全流程工具链。平台支持开箱即用的GO-1基座模型，兼容LeRobot通用数据格式，可适配第三方机器人本体。测试数据显示，GO-1在Genie Sim和Libero仿真环境中性能超越现有SOTA模型，真机部署效率提升30%以上。

开源战略与行业影响
此次开源延续了智元此前AgiBot World百万真机数据集的开源路线，进一步填补了具身智能领域基座模型的空白。开发者可通过GitHub、Huggingface等平台获取模型，结合Genie Studio快速构建垂直场景应用。业内分析认为，ViLLA架构的开放将促进服务机器人、工业自动化等领域的低成本技术迭代，尤其对科研教育机构具有显著普惠价值。

目前，GO-1已进入社区共建阶段，智元计划通过开发者生态持续优化模型泛化能力。这一动作也被视为其继8月发布Genie Envisioner世界模型平台后，在机器人技术栈开源化布局的关键一步。

文章版权归作者所有，未经允许请勿转载。

全球首个ViLLA架构具身智能模型开源！智元机器人GO-1基座模型全面开放

快手发布可灵2.5 Turbo视频生成模型：成本降28%，动作幅度提升30%

Kimi智能助手推出Agent会员服务，历史打赏可全额抵扣会员费

相关文章

快手可灵AI数字人技术重大升级：突破60秒长视频生成，实现精准表情动作控制

均胜电子发布AI机器人核心部件：头部总成与全域控制器引领具身智能变革

Figma收购Weavy推出AI原生平台Figma Weave，重塑设计软件竞争格局

宇树科技发布G1-D轮式人形机器人全栈解决方案，推动具身智能商业化进程

最新资讯

热门AI工具

热门资讯