美团开源SOTA虚拟人视频生成模型LongCat-Video-Avatar,实现动作拟真与情感表达突破

AI产品动态8小时前发布 AI视野

美团LongCat团队于2025年12月18日正式开源了其最新研发的SOTA级虚拟人视频生成模型LongCat-Video-Avatar。该模型基于此前发布的LongCat-Video基座构建,通过底层架构的全面升级,在动作拟真度、长视频稳定性与身份一致性三大技术维度实现突破,标志着虚拟人视频生成技术进入新阶段。

作为首个同时支持文本、图片和视频三种生成模式的全能模型,LongCat-Video-Avatar采用创新的“解耦无条件引导”(Disentangled Unconditional Guidance)训练方法,使虚拟人在静音状态下仍能呈现自然的人类行为,如眨眼、调整坐姿等。这种技术突破有效解决了传统虚拟人视频中动作僵化的问题,实现了从“机械表演”到“情感表达”的跨越。在音频驱动场景下,模型不仅能精准控制唇形,还能同步协调眼神、表情及肢体动作,形成丰富的多模态情感表达。

针对长视频生成中的技术瓶颈,团队提出“跨片段隐空间拼接”策略,避免重复编解码导致的画质退化,可支持长达5分钟的连贯视频生成。身份一致性方面,模型通过带位置编码的参考帧注入与“参考跳跃注意力”机制,在保持角色特征稳定的同时减少动作僵化。在HDTF、CelebV-HQ等权威数据集的定量评测中,该模型在唇音同步精度、情感表现力等核心指标上均达到当前最先进水平。

此次开源的技术成果已同步发布在GitHub、Hugging Face等平台,为开发社区提供了包括Audio-Text-to-Video、Audio-Text-Image-to-Video及视频续写等核心功能的完整工具链。美团表示,该技术将逐步应用于其自动驾驶、具身智能等深度交互业务场景,推动数字世界与物理世界的深度融合。

© 版权声明

相关文章