港大×快手可灵突破性视频生成技术:Context as Memory实现场景永生

AI产品动态11小时前发布 AI视野

香港大学与快手可灵团队近日联合发布了一项名为“Context as Memory”的突破性视频生成技术,该技术通过创新的上下文记忆机制,显著提升了长视频生成中的场景一致性能力。这项成果在交互式视频生成领域实现了从“记忆缺失”到“场景永生”的关键跨越,其技术指标已对标甚至超越Google DeepMind同期发布的Genie3模型。

技术核心在于双引擎架构设计:一方面采用动态记忆检索机制,将完整历史视频序列作为记忆载体,通过基于摄像机轨迹的视场重叠算法(FOV Overlap)智能筛选关键帧。实验显示,在《塞尔达传说》风格测试场景中,即便遭遇镜头剧烈晃动,模型仍能保持静态元素的位置精度误差小于1像素。另一方面通过Bregman散度不等式优化梯度更新方向,将传统模型处理1000帧视频所需的120GB显存消耗压缩至原有1/15,实现单卡A100显卡上24帧/秒的实时生成效率。

研究团队发现,视频生成模型可隐式学习视频数据中的3D先验,无需依赖显式3D建模辅助。Memory Retrieval模块通过分析相机轨迹视场重叠度>30%的历史帧,有效平衡了场景一致性与计算成本。在Unreal Engine 5构建的多样化测试场景中,用户仅需提供初始图像即可沿设定轨迹自由探索虚拟世界,模型展现出优秀的开放域泛化能力。

该技术由港大博士生余济闻主导研发,其所在团队此前在ICCV 2025发表的GameFactory研究已奠定技术基础。目前成果已通过arXiv平台公开论文及项目主页,为游戏开发、自动驾驶仿真、具身智能训练等下游应用提供了新的技术范式。值得注意的是,这项研究的投稿时间早于Genie3两周,展现了学术探索的前瞻性。

© 版权声明

相关文章