谷歌DeepMind于2025年9月26日正式发布Gemini Robotics 1.5系列机器人模型,标志着具身智能领域取得重大突破。该系列包含Gemini Robotics 1.5与Gemini Robotics-ER 1.5两款协同工作的模型,通过创新架构赋予机器人”先思考后行动”的自主决策能力,首次实现从指令理解到物理动作的完整闭环。
作为执行层的核心,Gemini Robotics 1.5是目前最先进的视觉-语言-动作(VLA)模型。其突破性在于引入具身思考机制,在执行动作前会生成自然语言形式的”思考轨迹”,将复杂任务拆解为可执行的子步骤。例如处理”收拾桌面”指令时,模型会规划”识别物品-抓取杯子-移动至水槽”等具体动作序列,并在遇到意外情况时动态调整策略。该模型还具备跨本体迁移能力,通过Motion Transfer技术实现不同机器人平台间的零样本技能迁移,例如ALOHA机械臂学会的”开抽屉”动作可直接应用于Apollo人形机器人。
规划层模型Gemini Robotics-ER 1.5专注于高阶推理,是全球首个针对物理世界优化的视觉语言模型(VLM)。该模型在15项学术基准测试中创下最佳纪录,其空间推理能力超越主流模型。它能通过多视角视觉信息实时评估任务进度,原生支持数字工具调用(如谷歌搜索)和多步骤计划生成。在实际应用中,ER 1.5可分解”垃圾分类”等复杂指令:先查询当地法规,再分析物品属性,最后生成分步操作指令交由执行层完成。
技术实现上,两款模型均基于Gemini多模态架构构建,共享包含异构机器人平台数据的训练集。数据采集自ALOHA、双臂Franka等设备,涵盖数千个多样化任务场景。为增强泛化能力,训练数据融合了互联网公开图文视频,并通过语义标注提升细节理解。安全方面,谷歌开发了多层防护体系,包括顶层语义安全校验和底层防碰撞系统,同步发布升级版ASIMOV安全评估基准。
目前,Gemini Robotics-ER 1.5已通过API向开发者开放,执行层模型限于合作伙伴使用。官方演示显示,搭载该系统的机器人能完成”根据天气打包行李”、”按地域规则分类垃圾”等需环境适应性的长周期任务。这一技术突破被视为推动机器人从”执行工具”向”决策助手”演进的关键一步,有望加速物流、零售等领域的智能化转型。
© 版权声明
文章版权归作者所有,未经允许请勿转载。