谷歌DeepMind发布Gemini Robotics 1.5系列：具身智能重大突破，机器人实现自主决策

AI产品动态2个月前发布 AI视野

谷歌DeepMind于2025年9月26日正式发布Gemini Robotics 1.5系列机器人模型，标志着具身智能领域取得重大突破。该系列包含Gemini Robotics 1.5与Gemini Robotics-ER 1.5两款协同工作的模型，通过创新架构赋予机器人”先思考后行动”的自主决策能力，首次实现从指令理解到物理动作的完整闭环。

作为执行层的核心，Gemini Robotics 1.5是目前最先进的视觉-语言-动作（VLA）模型。其突破性在于引入具身思考机制，在执行动作前会生成自然语言形式的”思考轨迹”，将复杂任务拆解为可执行的子步骤。例如处理”收拾桌面”指令时，模型会规划”识别物品-抓取杯子-移动至水槽”等具体动作序列，并在遇到意外情况时动态调整策略。该模型还具备跨本体迁移能力，通过Motion Transfer技术实现不同机器人平台间的零样本技能迁移，例如ALOHA机械臂学会的”开抽屉”动作可直接应用于Apollo人形机器人。

规划层模型Gemini Robotics-ER 1.5专注于高阶推理，是全球首个针对物理世界优化的视觉语言模型（VLM）。该模型在15项学术基准测试中创下最佳纪录，其空间推理能力超越主流模型。它能通过多视角视觉信息实时评估任务进度，原生支持数字工具调用（如谷歌搜索）和多步骤计划生成。在实际应用中，ER 1.5可分解”垃圾分类”等复杂指令：先查询当地法规，再分析物品属性，最后生成分步操作指令交由执行层完成。

技术实现上，两款模型均基于Gemini多模态架构构建，共享包含异构机器人平台数据的训练集。数据采集自ALOHA、双臂Franka等设备，涵盖数千个多样化任务场景。为增强泛化能力，训练数据融合了互联网公开图文视频，并通过语义标注提升细节理解。安全方面，谷歌开发了多层防护体系，包括顶层语义安全校验和底层防碰撞系统，同步发布升级版ASIMOV安全评估基准。

目前，Gemini Robotics-ER 1.5已通过API向开发者开放，执行层模型限于合作伙伴使用。官方演示显示，搭载该系统的机器人能完成”根据天气打包行李”、”按地域规则分类垃圾”等需环境适应性的长周期任务。这一技术突破被视为推动机器人从”执行工具”向”决策助手”演进的关键一步，有望加速物流、零售等领域的智能化转型。

文章版权归作者所有，未经允许请勿转载。

谷歌DeepMind发布Gemini Robotics 1.5系列：具身智能重大突破，机器人实现自主决策

京东发布AI应用“京犀APP”：定位下一代购物与生活服务超级入口

夸克与高德联合发布全球首款近眼显示导航系统，AI眼镜实现“视线所及即导航”

相关文章

微软开源Phi-4-mini-flash-reasoning：边缘计算AI模型实现10倍推理效率提升

百度文心APP推出’魔法漫画’功能：一句话生成AI连载漫画，5分钟创作8页内容

Figure.02机器人洗衣演示视频曝光，AI技术实现家庭环境新突破

Genspark推出AI浏览器：无广告高速浏览与深度AI整合重塑网络体验

最新资讯

热门AI工具

热门资讯