谷歌DeepMind实验室于2025年11月13日正式发布新一代多模态智能体SIMA 2(可扩展指令多世界代理),标志着人工智能在虚拟环境中的高阶理解与自主行动能力取得突破性进展。作为2024年3月推出的SIMA 1的升级版本,该系统整合了Gemini 2.5 Flash-lite模型,任务执行成功率较前代提升近一倍,在未接触过的游戏环境中复杂指令完成率已接近人类玩家75%的基准水平。
技术架构上,SIMA 2实现了三项关键创新:首先,通过Gemini模型实现语义推理与具身技能的深度融合,使智能体能理解”前往红色房屋”等抽象指令背后的逻辑(如关联红色与成熟番茄的隐喻);其次,引入自生成数据闭环系统,当进入《无人深空》《山羊模拟器3》等新场景时,可自动生成潜在任务并由内部奖励模型筛选优质行为轨迹用于微调,摆脱了对人工标注数据的依赖;第三,支持多模态交互,能解析文字、涂鸦甚至表情符号组合构成的指令,在演示中成功执行了基于emoji的抽象命令。
研究团队强调,游戏环境仅是验证通用人工智能(AGI)核心能力的试验场。在《MineDojo》等未训练过的游戏中,SIMA 2展现出类似人类新手的快速适应能力,证明其掌握的是通用行动逻辑而非特定游戏技巧。这种通过虚拟世界低成本训练的技能迁移机制具有现实意义——正如《Foldit》游戏曾助力解决蛋白质折叠难题,SIMA 2的导航、协作等能力未来或可应用于机器人控制等领域。
目前该技术仍存在局限:虽具备高层决策能力,但未涉及机械关节控制等物理层实现。DeepMind表示,SIMA 2研究预览版主要面向学术机构开放,旨在探索虚拟智能体向实体机器人迁移的可行路径。这项突破被视为实现AGI的重要里程碑,其自我优化的学习范式可能重塑未来人工智能的发展方向。
© 版权声明
文章版权归作者所有,未经允许请勿转载。