英伟达联合顶尖学府推出NitroGen开源模型,AI通过游戏视频实时生成操作信号实现动作控制突破

英伟达与斯坦福大学、加州理工学院等顶尖研究机构组成的跨学科团队近日宣布推出NitroGen开源基础模型,该模型通过分析游戏视频帧实时生成手柄操作信号,实现了人工智能在动作控制领域的重大突破。这项研究成果于2025年12月21日公开发布,标志着AI技术从虚拟游戏世界向现实机器人应用的迁移取得关键进展。

基于专为机器人技术设计的GROOT N1.5架构,NitroGen展现出独特的跨领域适应能力。研究团队创新性地采集了超过4万小时游戏直播视频数据,其中包含玩家实时操作画面的素材为训练提供了关键支持。通过深度学习人类玩家的决策模式,模型成功掌握了被称为”玩家直觉”的快速反应能力,在角色扮演、平台跳跃、竞速等15种游戏类型测试中,其任务完成率较传统模型提升52%。

技术实现方面,NitroGen采用Diffusion Transformer架构建立从像素到动作的端到端映射关系。研究团队开发了专门的分割模型,从游戏视频中提取叠加显示的手柄输入区域,将其转化为专家级动作标签进行监督学习。这种训练方式使模型能够直接解析游戏画面并输出精确控制信号,而非依赖预设规则。

值得注意的是,该项目的开源策略为行业带来深远影响。研究团队公开了预训练权重、包含800余款游戏的完整动作数据集及全套代码,其中15款核心游戏的训练时长超过1000小时。这种开放性已吸引全球开发者将技术迁移至机器人控制、自动驾驶仿真等场景,初步验证了其在实体设备上的应用潜力。

英伟达人工智能总监吉姆·范表示,当前版本聚焦于基础动作控制,未来将整合多模态感知系统。学术界普遍认为,这种”以游戏训练智能”的路径为构建通用具身智能体提供了新思路,其技术框架有望推动机器人、虚拟现实等领域的革新发展。

© 版权声明

相关文章