谷歌DeepMind发布Gemini Robotics 1.5升级版，机器人实现多步推理与规划能力突破

AI新闻资讯8个月前发布 AI视野

谷歌DeepMind近日发布了两款升级版AI模型——Gemini Robotics 1.5和Gemini Robotics-ER 1.5，显著提升了机器人在现实世界中的任务执行能力。这一技术突破使机器人能够在实际行动前进行多步推理和规划，标志着从单一指令执行向复杂物理任务理解的跨越。

机器人技术负责人卡罗琳娜·帕拉达在发布会上介绍，新系统通过协同工作机制，使机器人能够像人类一样利用网络搜索辅助决策。例如，机器人现在可以根据伦敦实时天气整理行李箱，或通过查询当地法规准确分类垃圾、堆肥和可回收物。这种”提前思考”的能力源于Gemini Robotics-ER 1.5模型的环境理解和数字工具调用功能。

此次发布的1.5版本是对今年3月推出的初始模型的重大升级。新系统不仅保留了处理折纸、开瓶盖等精细操作的能力，更突破了单一任务限制，实现了按衣物深浅分类、跨场景行李打包等需要多步骤协调的复杂操作。帕拉达强调，这种进步使机器人从”执行工具”转变为能真正理解并解决实际问题的智能伙伴。

值得注意的是，Gemini Robotics 1.5作为视觉-语言-行动模型，可将感知信息直接转化为运动指令，而Gemini Robotics-ER 1.5则专注于物理世界推理和任务规划。两者的结合形成了一个完整的智能体框架，在通用性、互动性和灵活性三大核心领域取得显著进展。演示显示，搭载新系统的机器人能自主查阅旧金山垃圾分类标准，并准确完成物品分类。

这一技术突破预示着机器人将更深度地融入人类生活场景，成为能主动协作、适应新环境的智能助手。DeepMind表示，新模型已展现出在未经专门训练的环境中良好表现的能力，为未来机器人的广泛应用奠定了基础。

文章版权归作者所有，未经允许请勿转载。

谷歌DeepMind发布Gemini Robotics 1.5升级版，机器人实现多步推理与规划能力突破

Meta发布AI智能体评估平台ARE及Gaia2基准模型，破解真实场景适应性评估难题

CoreWeave与OpenAI达成65亿美元算力合作，AI模型训练需求激增

相关文章

OpenAI因Mixpanel漏洞泄露用户数据，AI供应链安全再响警钟

智谱科技发布Z Code：AI代码编辑器重构人机协作，多Agent集成降低编程门槛

AI婚恋平台Keeper颠覆传统：算法匹配灵魂伴侣，成功结婚收费5万美元

xAI发布Grok 4.1大语言模型：情商测试刷新纪录，24小时登顶LMArena排行榜

最新资讯

热门AI工具

热门资讯