谷歌DeepMind近日发布了两款升级版AI模型——Gemini Robotics 1.5和Gemini Robotics-ER 1.5,显著提升了机器人在现实世界中的任务执行能力。这一技术突破使机器人能够在实际行动前进行多步推理和规划,标志着从单一指令执行向复杂物理任务理解的跨越。
机器人技术负责人卡罗琳娜·帕拉达在发布会上介绍,新系统通过协同工作机制,使机器人能够像人类一样利用网络搜索辅助决策。例如,机器人现在可以根据伦敦实时天气整理行李箱,或通过查询当地法规准确分类垃圾、堆肥和可回收物。这种”提前思考”的能力源于Gemini Robotics-ER 1.5模型的环境理解和数字工具调用功能。
此次发布的1.5版本是对今年3月推出的初始模型的重大升级。新系统不仅保留了处理折纸、开瓶盖等精细操作的能力,更突破了单一任务限制,实现了按衣物深浅分类、跨场景行李打包等需要多步骤协调的复杂操作。帕拉达强调,这种进步使机器人从”执行工具”转变为能真正理解并解决实际问题的智能伙伴。
值得注意的是,Gemini Robotics 1.5作为视觉-语言-行动模型,可将感知信息直接转化为运动指令,而Gemini Robotics-ER 1.5则专注于物理世界推理和任务规划。两者的结合形成了一个完整的智能体框架,在通用性、互动性和灵活性三大核心领域取得显著进展。演示显示,搭载新系统的机器人能自主查阅旧金山垃圾分类标准,并准确完成物品分类。
这一技术突破预示着机器人将更深度地融入人类生活场景,成为能主动协作、适应新环境的智能助手。DeepMind表示,新模型已展现出在未经专门训练的环境中良好表现的能力,为未来机器人的广泛应用奠定了基础。
© 版权声明
文章版权归作者所有,未经允许请勿转载。