谷歌DeepMind于8月5日正式发布第三代通用世界模型Genie 3,标志着其在实现通用人工智能(AGI)道路上的重要突破。该模型通过文本提示即可实时生成高保真、可交互的虚拟环境,分辨率达720p并以24帧/秒的速率运行,同时能维持数分钟的环境一致性,显著超越前代产品的性能极限。
Genie 3的核心创新体现在三个方面:首先,其物理模拟引擎可精准还原水流、光影变化等自然现象,支持复杂场景如直升机在悬崖瀑布间的机动模拟;其次,模型突破时空限制,既能构建阿尔卑斯山等真实地理场景,也能生成古希腊历史环境或奇幻彩虹桥等虚构世界;最后,引入”可提示世界事件”功能,用户通过文本指令即可动态修改环境要素,例如在滑雪场景中实时添加鹿群互动。
技术层面,Genie 3采用流式处理架构解决传统生成模型的延迟问题,通过自回归逐帧生成机制配合长期一致性维护算法,使视觉记忆最长可追溯至一分钟前。相比Genie 2的360p分辨率与60秒运行限制,新一代模型在真实感与稳定性上实现质的飞跃。
目前该模型以研究预览形式向特定学术机构及创作者开放,重点应用于AI体感代理训练、自动驾驶模拟测试等领域。DeepMind研究主任Shlomi Fruchter指出,这种实时交互的世界建模能力是构建AGI系统的关键基础设施,未来或将拓展至教育、娱乐等更广泛场景。行业观察家认为,该技术为机器学习的具身智能研究提供了前所未有的仿真环境。
© 版权声明
文章版权归作者所有,未经允许请勿转载。