谷歌DeepMind团队于2025年9月25日发布的Gemini Robotics 1.5系列模型,标志着机器人技术迈入“先思考后行动”的新阶段。该系统通过“大脑-身体”协作框架,首次实现机器人对复杂任务的自主规划与执行能力。
核心架构与分工
系列包含两款协同模型:Gemini Robotics-ER 1.5作为“高层大脑”,具备业界领先的物理环境推理能力。它能主动调用谷歌搜索等工具获取实时信息(如查询目的地天气或地方法规),并生成多步骤任务计划。例如在垃圾分类场景中,模型会先检索当地规则,再结合物品属性制定投放策略。
Gemini Robotics 1.5则扮演“身体”角色,负责将视觉信息与语言指令转化为精准动作。其突破性在于执行前的内部推演能力——例如整理衣物时,会先以自然语言生成“按颜色分类→白色入白桶→其他入黑桶”的思维链,再转化为具体操作步骤。这种透明化决策机制显著提升了任务鲁棒性。
三大技术突破
1. 动态工具调用:机器人可自主联网获取实时数据。演示中,Apollo人形机器人在收到“打包伦敦行李”指令后,主动查询降雨预报并添加雨伞,展现环境适应性。
2. 跨形态技能迁移:模型突破硬件限制,使机械臂ALOHA习得的“开抽屉”技能可直接迁移至人形机器人,无需重复训练。
3. 多模态协同:在旧金山垃圾分类测试中,机器人通过视觉识别物品、语言理解指令、动作执行三者的无缝衔接,准确完成堆肥/回收/垃圾的分拣,成功率较传统模型提升27%。
应用前景与开放生态
目前,Gemini Robotics-ER 1.5已通过Google AI Studio向开发者开放,其API支持长时程任务编排。DeepMind强调,该技术将优先应用于物流分拣、家庭服务等场景。内部测试显示,搭载新系统的机器人在300毫秒内即可预判碰撞风险,多步任务一次完成率达92.3%。
随着伦理审查的推进,这项技术或重新定义人机协作边界——从被动执行工具进化为具备环境感知与自主决策能力的智能体。
© 版权声明
文章版权归作者所有,未经允许请勿转载。